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(§2) Verfahren zur automatischen Steuerung eines oder mehrerer Gerate durch Sprachkommandos oder per 
Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausfuhren des Verfahrens 

@ Die Erfindung betrifft ein Sprachbediensystem, bei dem 
ein Verfahren zur automatischen Steuerung von Geraten per 
Sprachdialog angewendet wird, das auf Verfahren zur 
Sprachausgabe, Sprachsignalvorverarbeitung und Sprach- 
erkennung, syntaktisch-grammatikalischer Nachverarbei- 
tung sowie Dialog-, Ablauf- und Schnittstellensteuerung 
basiert und dadurch gekennzeichnet ist, daS 

- Syntax- und Kommandostruktur wahrend des Echtzeit-Dia- 
logbetriebs fixiert sind, 

- Vorverarbeitung, Erkennung und Dialogsteuerung fur Be- 
trieb in gerauschbehafteter Umgebung ausgelegt sind, 

- fur die Erkennung allgemeiner Kommandos kein Training 
durch den Benutzer erforderlich ist, 

- fur die Erkennung spezifischer Kommandos einzeiner 
^ Benutzer ein Training notwendig ist, 

- die Eingabe von Kommandos verbunden erfolgt, wobei die 
Anzahl der Worte, aus denen ein Kommando fur die 

!■ Spracheingabe gebtldet wird, vartabel ist, 

^ - eine echtzeitige Verarbeitung und Abwicklung des Sprach- 

|jf> dialoges geg ben ist, 

^ - die Sprachein- und -ausgabe im Freisprechbetrieb erfolgt. 
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Bescn^roung 

Die Erfindung betrifft ein Verfahren zur automati- 
schen Steuerung eines oder mehrerer Gerate durch 
Sprachkommandos oder per Sprachdialog im Echtzeit- 5 
betrieb gemaB Oberbegriff des Patentanspruchs 1 sowie 
eine Vorrichtung zum Ausfiihren des Verfahrens gemafi 
Oberbegriff des Patentanspruchs 50. 

Ein solches Verfahren ist bereits aus der QE 38 19 178 
Al bekannt. 10 

Verfahren bzw. Vorrichtungen dieser Art werden all- 
gemein in sogenannten Sprachdialog- bzw. Sprachbe- 
diensystemen z. B. fur Fahrzeuge, Computer, Roboter, 
Maschinen, Anlagen usw. eingesetzt. 

Ein Sprachdialogsystem (SDS) lafit sich i.a. im wesent- 15 
lichen auf folgende Komponenten reduzieren (vgi. hier- 
zu z. B.: R Class, H. Katterfeldt, P. Regel: "Methoden 
und Algorithmen der Worterkennung"; in: H. Mangold 
(Herausgeber): Sprachliche Mensch-Maschine-Kom- 
munikation (Verlag Oldenbourg, 1992), Seiten 1 bis 13): 20 

Spracherkennungssystem, welches ein eingesproche- 
nes Kommando ("Sprachkommando") mit anderen er- 
laubten Sprachkommandos vergleicht und eine Ent- 
scheidung trifft, welches Kommando aller Wahrschein- 
lichkeit nach eingesprochen wurde, 25 

Sprachausgabe, welche die zur Benutzerfiihrung er- 
forderlichen Sprachbefehle und Signalisierungstone 
ausgibt und ggf. das Erkennergebnis ruckmeldet, 

Dialog- und Ablaufsteuerung, um dem Benutzer zu 
verdeutlichen, welche Art von Eingabe erwartet wird, 30 
bzw. um zu priif en, ob die erfolgte Eingabe konsistent ist 
mit der Aufforderung und mit dem momentanen Status 
der Applikation, und um die resultierende Aktion bei 
der Applikation (z. B. dem zu steuernden Gerat) anzu- 
stoBen, 35 
• Kontrollinterface als Schnittstelle zur Applikation: 
Dahinter verbergen sich Hard- und Softwaremodule, 
um verschiedene Aktuatoren bzw. Rechner anzusteu- 
ern, die die Applikation beinhalten, 

Applikation, die per Sprache angesteuert wird: 40 
Das kann z. B. ein Bestell- oder Auskunftsystem, ein 
CAE-Arbeitsplatz oder ein behindertengerechter Roll- 
stuhl sein. 

Die vorliegende Beschreibung konzentriert sich — 
ohne Einschrankung auf die allgemeine Anwendbarkeit 45 
der geschilderten Verfahren, Vorrichtungen und Ablau- 
fe — auf die Spracherkennung, die Dialogstruktur sowie 
auf eine spezielle Applikation in Kraftfahrzeugen. 

Die Schwierigkeiten bei bisher bekannten Losungen 
(vgl: z. B. T. Shinohara, N. Maeda, H. Asada: "Hands 50 
Free Voice Recognition Telephone For Automobile"; in: 
Proceedings of the ISATA-Conference 1990, Seiten 525 
bis 545 sowie H= Asada, H t Norimatsu, S, Azuma: "Spea- 
ker-Dependent Voice Recognition Algorithm For Voice 
Dialing In Automotive Environment"; in: Proceedings of 55 
the ISATA-Conference 1990, Seiten 547 bis 557) liegen 

a) in der Notwendigkeit, ein aufwendiges Training 
durchzufiihren, um das System auf die Charakteri- 
stik des jeweiligen Sprechers oder auf einen wech- 60 
selnden Wortschatz anzupassen. Die Systeme sind 
in der Regel entweder vollstandig sprecherunab- 
hSngig oder vollstandig sprecherabhangig bzw. 
sprecheradaptiv, wobei letztere fur jeden neuen 
Benutzer einen Trainingslauf erfordern. Dies kostet 65 
Zeit und reduziert den Bedienkomfort bei haufig 
wechselnden Sprechern sehr stark. Aus diesem 
Grund ist bei herkommlichen Systemen auch der 



VokabullBRfang gering bei Applikationen, wo 
mit wechselnden Sprechern und Zeitnot der einzel- 
nen Sprecher zu rechnen ist, 

b) in dem unzureichenden Bedienkomfort, der darin 
zum Ausdruck kommt, daB 

— das Vokabular auf ein Minimum begrenzt 
ist, um hohe Erkennsicherheit zu garantieren, 

— die Einzelworte eines Kommandos isoliert 
(d. h. mit Zwischenpausen) eingegeben wer- 
den, 

— Einzelworte quittiert werden mtissen, um 
Fehler zu erkennen, 

— mehrstufige Dialoghierarchien abzuarbei- 
ten sind, um vielfaltige Funktionen zu steuern, 

— ein Mikrofon in die Hand zu nehmen ist 
bzw. ein Headset getragen werden muB, 

c) in der fehienden Robustheit 

— gegeniiber Bedienfehlern 

— gegeniiber storenden Umgebungsgerau- 
schen, 

d) in der aufwendigen und teueren Hardware-Rea- 
lisierung, vor ailem bei mittleren und kleinen Stiick- 
zahlen. 

In der eingangs bereits genannten DE 38 19 178 Al 
wird ein Spracherkennungssystem beschrieben, bei dem 
die eingegebenen Sprachkommandos mitteis eines spre- 
cherunabhangigen Verbundwort-Spracherkenners und 
eines sprecherabhangigen Zusatz-Spracherkenners er- 
kannt und gemaB ihrer Erkennungswahrscheinlichkeit 
klassifiziert werden. 

Bei diesem Spracherkennungsverfahren wird zuerst 
ein unbekanntes Sprachkommandomuster aus Merk- 
malen erzeugt, welche aus dem unbekannten Sprach- 
kommando extrahiert worden sind. Danach wird ein 
Ahnlichkeitsgrad zwischen dem erzeugten unbekannten 
Muster und Referenzmustern ermitteit, die sich zusam- 
mensetzen 

a) aus Referenzmustern, die ausschlieBlich fiir eine 
sprecherunabhangige Erkennung verwendet wor- 
den sind, und 

b) aus Referenzmustern, die ausschlieBlich fiir eine 
sprecherabhangige Erkennung verwendet worden 
sind. 

AnschlieBend wird der Ahnlichkeitsgrad jedes Refe- 
renzmusters entweder bezuglich der sprecherunabhan- 
gigen oder beziiglich der sprecherabhangigen Erken- 
nung korrigiert, indem der ermittelte Ahnlichkeitsgrad 
einer vorgegebenen Operation unterzogen wird. Da- 
nach wird das Muster mit dem hochsten Ahnlichkeits- 
grad bestimmt 

Die zugehorige Spracherkennungseinrichtung weist 
eine Koeffizientenspeichereinrichtung auf, um den er- 
haltenen Ahnlichkeitsgrad entsprechend zu korrigieren, 
sowie eine Sprachidentifizierungseinrichtung, um die 
Ahnlichkeitsgrade des Musters, das entweder bei einer 
sprecherunabhiingigen oder bei einer sprecherabhangi- 
gen Erkennung geliefert worden ist, mit korrigierten 
Ahnlichkeitsgraden des Musters zu vergleichen und um 
das Muster mit dem hochsten Ahnlichkeitsgrad zu be- 
stimmen. Das System kann per Sprachkommando oder 
per Sprachdialog betrieben werden. 

Aus der DE 39 28 049 Al ist ein Verfahren zur auto- 
matischen Steuerung eines Archivierungssystems durch 
Sprachkommandos bekannt, bei dem erkannte zuiassige 
Sprachkommandos auf ihre Plausibilitat hin uberpnift 
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werden. 

Die Aufgabe der Erfindung besteht darin, zum einen 
ein Verfahren anzugeben, mit dem mit moglichst gerin- 
gem Aufwand ein oder mehrere Gerate durch Sprach- 
kommandos oder per Sprachdialog zuverlassig im Echt- 
zeitbetrieb gesteuert werden konnen. Ferner soli eine 
geeignete Vorrichtung angegeben werden, mit der das 
zu schaffende Verfahren ausgefiihrt werden kann. 

Die erfindungsgemaBe Losung der Aufgabe ist in be- 
zug auf das zu schaffende Verfahren durch die Merkma- 
le des Patentanspruchs 1 und in bezug auf die zu schaf- 
fende Vorrichtung durch die Merkmale des Patentan- 
spruchs 50 wiedergegeben. Die iibrigen Anspruche ent- 
halten vorteilhafte Aus- und Weiterbildungen des erfin- 
dungsgemaBen Verfahrens (Anspruche 2 bis 49) sowie 
der erfindungsgemaBen Vorrichtung (Anspruche 51 bis 
62). 

Der wesentliche Vorteil der Erfindung ist darin zu 
sehen, daB mit relativ geringem Aufwand eine zuverlas- 
sige Steuerung bzw. Bedienung von Geraten per 
Sprachkommando bzw. per Sprachdialog im Echtzeit- 
betrieb moglich ist. 

Ein weiterer wesentlicher Vorteil ist darin zu sehen, 
daB eine der natiirlichen Sprechweise weitgehend ange- 
paflte Eingabe der Sprachkommandos bzw. Fiihrung 
des Sprachdialogs mit dem System moglich ist und daB 
dem Sprecher hierfiir ein umfangreiches Vokabuiar von 
zulassigen Kommandos zur Verfugung steht 

Ein dritter Vorteil ist darin zu sehen, daB das System 
fehiertolerant arbeitet und in einer vorteilhaften Wei- 
terbildung der Erfindung z. B. auch nichtzulassige Wor- 
ter, Namen, Laute oder Wortumstellungen in den vom 
Sprecher eingegebenen Sprachkommandos i.a. als sol- 
che erkennt und aus diesen eingegebenen Sprachkom- 
mandos von dem Sprecher an sich gewollte zulassige 
Sprachkommandos extrahiert 

Im folgenden wird die Erfindung anhand der Figuren 
naher erlautert. Es zeigt 

Fig. 1 das Blockschaltbild einer bevorzugten Ausfiih- 
rungsform der erfindungsgemaBen Vorrichtung zum 
Ausfuhren des erfindungsgemaBen Verfahrens 
("Sprachdialogsystem"), 

Fig. 2 eine detaillierte Darstellung des eigentlichen 
Sprachdialogsystems gemaB Fig. 1, 

Fig. 3 das Flufidiagramm zu einer bevorzugten Aus- 
fuhrungsform der Segmentierung der eingegebenen 
Sprachkommandos fur ein Sprachdialogsystem gemaB 
Fig.2, 

Fig. 4 und 5 Ausfuhrungsbeispieie von Hidden-Mar- 
kov- Modellen, 

Fig. 6 den hardwaremaBigen Aufbau eines bevorzug- 
ten Ausfiihrungsbeispiels des Sprachdialogsystems ge- 
maB Fig. 2, 

Fig. 7 das Zustandsdiagramm fur die Anwendung des 
Sprachdialogsystems gemaB Fig. 2 zur sprachgesteuer- 
ten Bedienung eines Telefons, 

Fig. 8 das Flufidiagramm zur Bedienung eines Tele- 
fons gemaB Fig. 7, 

Fig. 9 und 10 das FluBdiagramm zur Funktion "Na- 
menswahl" (Fig. 9) bzw. "NummernwahP (Fig. 10) bei 
der Bedienung eines Telefons gemaB FluBdiagramm 
nach Fig. 8. 

Das im folgenden beschriebene Sprachdialogsystem 
(SDS) in Fig. 1 umfaBt die Komponenten Spracheinga- 
be (symbolisch dargestellt durch ein Mikrofon), Sprach- 
erkennung, Dialog- und Ablaufsteuerung, Kommunika- 
tions- und Kontrollinterface Sprachausgabe mit ange- 
schlossenem Lautsprecher sowie (beispielhaft) eine Ap- 
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plikation, d. h. ein durch das SDS zu steuerndes bzw. zu 
bedienendes Gerat. SDS und Applikation bilden zusam- 
men ein Sprachbediensystem (SBS), das in Echtzeit ("on- 
line") betrieben wird. 

Die Syntax- und Dialogstruktur und die fur alle Be- 
nutzers Sprecher verbindlichen Basissprachkommandos 
werden "offline" auBerhalb des SDS bzw. SBS (beispiel- 
haft) mit Hilfe einer PC- Workstation im "off-line Dialog 
Editormodus" erstellt und fixiert und zusammen mit vor- 
zugebenden Parametern und Ablaufstrukturen dem 
SDS bzw. SBS vor Inbetriebname in Form von Datenfi- 
les iibergeben. 

Das SDS der Fig. 1 ist in Fig. 2 im Detail dargestellt. 
Ein (nicht gezeigtes) Mikrofon ist mit einem Analog/Di- 
gital- Wandler verbunden, der iiber Vorrichtungen zur 
Gerauschreduktion, Echokompensation und Segmen- 
tierung mit einem sprecherunabhangigen Verbund- 
wort-Spracherkenner und mit einem sprecherabhangi- 
gen Spracherkenner verbunden ist Die beiden Sprach- 
erkenner sind ausgangsseitig mit einer Einheit zur syn- 
taktisch-grammatikaiischen und semantischen Verar- 
beitung der Erkenner-Ausgangssignale verbunden. Die- 
se Einheit wiederum ist mit der Dialog- und Ablauf- 
steuerung verbunden, die ihrerseits zum einen Qber 
Schnittstellen (z. B. D2B, V24, CAN, PCMCIA usw.) mit 
den (nicht gezeigten) Geraten verbunden ist, die uber 
das SDS angesteuert bzw. bedient werden sollen. Die 
Dialog- und Ablaufsteuerung ist ferner mit einer 
Spracheingabe-/Sprachausgabe-Einheit verbunden, die 
aus einem Sprachencoder, einem Sprachdecoder und 
einem Sprachspeicher besteht. 

Der Sprachencoder ist eingangsseitig an den Ausgang 
der Vorrichtung zur Gerauschreduktion und ausgangs- 
seitig an den Sprachspeicher angeschlossen. Der 
Sprachspeicher ist ausgangsseitig an den Sprachdeco- 
der angeschlossen, der ausgangsseitig iiber einen Digi- 
tal/Analog- Wandler mit einem (nicht gezeigten) Laut- 
sprecher verbunden ist 

Die Vorrichtung zur Echokompensation ist uber 
Schnittstellen mit (nicht gezeigten) Geraten/Sensoren 
verbunden, die ggf. zu kompensierende Audiosignale 
liefern. 

Der sprecherunabhangige Verbundwort-Spracher- 
kenner weist zum einen eine Einheit zur Merkmalsex- 
traktion auf, in der die Cepstrumsbildung und die Adap- 
tion des Erkenners u. a. an die analoge Obertragungs- 
charakteristik der eingehenden Signale durchgefuhrt 
werden, und zum anderen eine nachgeschaltete Einheit 
zur Klassifikation. 

Der sprecherabhangige Spracherkenner weist eben- 
falls zum einen eine Einheit zur Merkmalsextraktion 
und zum anderen ein Einheit zur Klassifikation auf. Zu- 
satzlich ist jedoch uber einen Umschalter anstelle der 
Klassifikationseinheit eine Einheit zur Eingabe der s'pre- 
cherspezifischen Zusatzsprachkommandos zuschaltbar, 
die in den Trainingsphasen vor, wahrend oder nach dem 
Echtzeitbetrieb des SDS vom Erkenner trainiert wer- 
den sollen. Der sprecherabhangige Erkenner arbeitet 
z. B. nach dem Dynamic-Time- Warping(DTW)- Verfah- 
ren, nach dem dessen Klassifikationseinheit die Abstan- 
de zwischen dem zu erkennenden Kommando und vor- 
trainierten Referenzmustern feststellt und das Refe- 
renzmuster mit dem geringsten Abstand als das zu er- 
kennende Kommando identifiziert Alternativ hierzu 
65 kann aber auch der sprecherabhangige Erkenner mit 
Methoden der Merkmalsextraktion arbeiten, wie sie in 
sprecherunabhangigen Spracherkennern zur Anwen- 
dung kommen (Cepstrumsbildung, Adaption usw.). 
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Im folgenden wird die Fusions weise des SDS naher 
erlautert. 

Das SDS beinhaitet — wie zuvor ausgefiihrt — zwei- 
erlei Spracherkennertypen zur Erkennung vorgegebe- 
ner Sprachkommandos. Die beiden Erkenner konnen 
wie folgt charakterisiert werden: 

Sprecherunabhangige Erkennung von verbunden ge- 
sprochenen Worten. Damit lassen sich allgemeine Steu- 
erkommandos, Ziffern, Namen, Buchstaben etc. erken- 
nen, ohne daB der Sprecher bzw. Benutzer eines oder 
mehrere der benutzten Worte vorher trainiert haben 
muB. 

Weiterhin kann die Eingabe im Verbundwortmodus er- 
folgen, d. h. eine Kombination mehrerer Worte, Ziffern, 
Namen ergibt ein Kommando, welches in einem Zug, 
d. h. ohne Pause eingesprochen wird (z. B. das Komman- 
do: "Kreis mit Radius Eins"). Beim Algorithmus zur 
Klassifikation handelt es sich um einen HMM(Hidden- 
Markov-Modeli)- Erkenner, der im wesentiichen auf 
Phonemen (Lautuntereinheiten) aufbaut und daraus 
Worte bzw. Kommandos zusammensetzt. Das Vokabu- 
lar und die daraus aufgebauten Kommandos ("Syntax- 
struktur") werden vorab im Labor fixiert und dem Er- 
kenner in Form von Datenfiles iibergeben ("off-line Dia- 
log Editiermodus"). Im Echtzeit-Betrieb kann das Voka- 
bular und die Syntaxstruktur des unabhangigen Erken- 
ners vom Benutzer nicht modifiziert werden. 

Sprecherabhangige Erkennung von benutzer-/spre- 
cherspezifischen Namen oder Funktionen, die der Be- 
nutzer/Sprecher definiert und trainiert. 
Der Benutzer/Sprecher hat die Moglichkeit, ein persdn- 
liches Vokabular in Form von Namenslisten, Funktions- 
iisten etc. anzulegen bzw. zu editieren. Dadurch kann 
der Benutzer/Sprecher seinen personlichen Wortschatz 
wahlen und diesen jederzeit "on line" d. h. im Echtzeitbe- 
trieb, an seine Bediirfnisse anpassen. 
Als Beispiel fur eine Anwendung im Telefonumfeld sei 
die "Namensliste" genannt, d. h. das individuelle Ver- 
zeichnis von Namen, wobei 

— der . Namen in einer Trainingsphase ein- oder 
mehrmals vom Benutzer eingesprochen wird (z. B. 
"Onkel Willi") und dem Namen per Tastatureinga- 
be, vorzugsweise aber per unabhangigem Sprach- 
erkenner eine Telefonnummer zugeordnet wird, 

— nach AbschluB des obigen Trainings und der 
Nummernzuweisung der Benutzer nur noch dem 
sprecherabhangigen Erkenner einen Namen ("On- 
kel Willi") nennt, nicht aber die zugehorige Telefon- 
nummer, die dem System bereits bekannt ist. 

Der sprecherabhangige Erkenner wird in der 

— einfachsten Form als Einzelworterkenner ausge- 
legt 

— in der leistungsfahigeren Form als Verbund- 
worterkenner, der nahtlos mit dem sprecherunab- 
h&ngigen Erkenner gekoppelt ist ("Onkel Willi an- 
rufen" als vollstandiges Kommando, wobei das 
Wort "anruf en" Teil des sprecherunabhangigen Vo- 
kabulars ist). 

Im AnschluB an die Spracherkennung wird eine 
Nachverarbeitung der mit einer bestimmten Erkenn- 
wahrscheinlichkeit behafteten Ergebnisse der beiden 
Spracherkenner durchgefiihrt 

Der sprecherunabhangige Verbundwort-Sprach er- 
kenner z. B. liefert mehrere Satzhypothesen in einer 



Reihenfolge, ^IBEhe die Erkennwahrscheinlichkeiten 
reprasentiert. Diese Satzhypothesen beriicksichtigen 
bereits die erlaubte Syntaxstruktur, d. h. innerhalb der 
syntaktischen Nachverarbeitung (Fig- 2) werden unzu- 
5 lassige Wortfolgen ausgesondert bzw. nach verschiede- 
nen Kriterien bewertet, wie wahrscheinlich die hierin 
auftretende Wortkombination ist. Ferner werden die 
von den Spracherkennern erzeugten Satzhypothesen 
auf ihre semantische Plausibilitat uberpruft und danach 
io die Hypothese mit der hochsten Wahrscheinlichkeit 
ausgewahlt 

Ein korrekt erkanntes Sprachkommando wird an die 
Dialogsteuerung weitergereicht und fiihrt anschlieBend 
zu einem diesem Sprachkommando zugeordneten Ein- 

15 griff auf die Applikation, wobei die Meldung uber das 
Kontrollinterface weitergereicht wird. 

Das hier skizzierte System ist im "on-line"- Betrieb 
durch eine fixierte Syntax- und Kommandostruktur, so- 
wie durch eine Kombination von fixiertem Vokabular 

20 (sprecherunabhangiger Erkenner) und frei definierba- 
rem Vokabular, wie z. B. Namen (sprecherabhangiger 
Erkenner), gekennzeichnet. 

Dieser zunachst starr erscheinende Rahmen ist eine 
Voraussetzung fiir hohe Erkennleistung bei groBem Vo- 

25 kabularumfang (bis zu mehreren hundert Worten), bei 
gerauschbehafteter Umgebung, bei wechselnden akusti- 
schen Verhaltnissen in der Fahrgastzelle sowie bei vari- 
ierenden Sprechern. Der hohe Vokabularumfang wird 
genutzt, um die Benutzerfreundlichkeit durch Verwen- 

30 dung synonymer Worte bzw. unterschiedlicher Aus- 
sprachevarianten zu erhohen. Auch erlaubt die Syntax 
die Umstellung von Worten in den Sprachkommandos, 
so z. B.: 

"GroBerer Radius bei linkem Kreis" 
35 oder — alternativ hierzu — 

"Bei linkem Kreis groBerer Radius", 
wobei diese Alternativen jedoch von vorneherein bei 
der Festlegung mit dem "off-line Dialog Editor" definiert 
sein mussen. 

40 Der hier skizzierte Losungsansatz erweist sich inso- 
fern als vorteilhaft, als 

• die Verb und worteingabe von Kommandos natiirli- 
cher und schneller ist als die Isoliertworteingabe. Die 
Praxis hat insbesondere gezeigt, daB der unbefangene 

45 Benutzer schwer daran zu gewdhnen ist, abgehackt (mit 
deutlichen Zwischenpausen) zu sprechen, um ein Mehr- 
wortkommando einzugeben (die Akzeptanz derartiger 
Systeme ist deshalb deutlich geringer), 

# die Eingabe z. B. von Ziffern- oder Buchstabenkolon- 
50 nen im Verbund leichter ist und weniger Konzentration 

erfordert als die Einzeleingabe, 

# die Dialogfiihrung naturlicher ist, weil z. B. bei Zif- 
fernkolonnen nicht jede Einzelziffer quittiert werden 
muB, sondern nur der eingegebene Ziff ernblock, 

55 • wegen des Wortschatzes von z. B. bis zu einigen hun- 
dert Worten eine Vielzahl von Funktionen per Sprache 
bedienbar sind, die vorher manuelle Bedienung erfor- 
derten, 

• die Menge manueller Schaltelemente reduziert wer- 
60 den kann bzw. bei Spracheingabe die Hande andenvei- 

tig benutzbar sind, z. B. bei der Qualitatskontrolle von 
Motoren. 

Der Bedienkomfort wird bei dem vorliegenden Sy- 
stem weiterhin erhoht durch Nutzung von Freisprech- 
65 mikrofon(en) und Verzicht auf Headset (Kopfhorer und 
Lippenmikrofon) bzw. Handmikrofon. Das erfordert al- 
lerdings eine leistungsfahige Gerauschreduktion (Fig. 2) 
sowie ggf. eine Echokompensation von Signalen, die 
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z. B. aus dem Dialog- oder anderen I^msprechern stam- 
m en- 
Die vorgeschlagene Echokompensation erlaubt es 
insbesondere, der Sprachausgabe ins Wort zu fallen, 
d. h. den Erkenner anzusprechen, wahrend die Sprach- 
ausgabe aktiv ist. 

Gleichzeitig konnen irn Labor per. "off-line Dialog 
Editor" jederzeit das Vokabular und die Kommandos 
verSndert werden, ohne daB dies ein neues Training mit 
einer Vielzahl von Sprechern fur die neuen Worte des 
sprecherunabhangigen Erkenners bedarf. Der Grund 
liegt darin, daB im Labor die Datenbank fur sprecherun- 
abhangige Phoneme vorliegt und aus diesen Phonemen 
mit der vorhandenen Entwicklungsumgebung ohne wei- 
teres neue Worte und Kommandos generiert werden 
konnen. Letztlich lauft eine Kommando- oder Vokabu- 
laranderung darauf hinaus, die im Labor mit dem Ent- 
wickiungssystem berechneten neuen Parameter und 
Daten als Datenfile in den sprecherunabhangigen "Echt- 
zeit-Erkenner" zu uberspieien und dort im Speicher ab- 
zulegen. 

Mittels des vorgeschlagenen SDS konnen sowohi 
Funktionen innerhalb des Computers, in dem das SDS 
eingebaut ist, als auch externe Gerate bedient werden. 
Das SDS weist neben einer PCMCIA-Schnittstelle noch 
Schnittstellen auf, welche fiir externe Gerate zuganglich 
sind. Dies sind zum Beispiel: 

V.24-Schnittstelle, optischer Daten-Steuerbus, CAN-In- 
terface usw. Optional kann das SDS mit weiteren 
Schnittstellen ausgestattet werden. 

Das SDS wird vorzugsweise durch Betatigen einer 
push-totalk-Taste (PTT) oder durch ein definiertes 
Schlusselwort aktiviert Die Abschaltung nach Beendi- 
gung eines Kommandos erfolgt automatisch durch die 
interne Segmentierung des SDS. In gerauscharmer Um- 
gebung kann das SDS auch kontinuierlich aktiviert sein. 

Ablaufbeschreibung 

An dieser Stelle sei betont, daB das SDS tn Fig. 2 nur 
ein Beispiel ist fur ein nach der Erfindung mogliches 
SDS. Die Konfiguration der Schnittstellen zur Daten- 
eingabe bzw. Datenausgabe bzw. zur Steuerung der an- 
geschlossenen Komponenten ist hier ebenfalls nur bei- 
spielhaf t dargestellt. 

Die dargestellten Funktionsblocke werden im folgen- 
den naher erlautert 

1. Gerauschreduktion 

Diese ermoglicht es, stationare oder quasi-stationare 
Umgebungsgerausche vom digitalisierten Sprachsignal 
zu unterscheiden und diese vom Sprachsignal abzuzie- 
hen. Gerausche dieser Art sind z. B.: Fahrgerausche in 
einem Kraftfahrzeug (Kfz), Umgebungsgerausche in 
Labors und Biiros wie LUfter oder Maschinengerausche 
in Fabrikationshallen. 

2. Echokompensation 

Ober die Echokompensation werden die digitalisier- 
ten Lautsprechersignale z. B. der Sprachausgabe bzw. 
eines eingeschalteten Radios uber adaptive Filteraigo- 
rithmen vom Mikrofonsignal subtrahiert Die Filteral- 
gorithmen bilden den Echopfad vom Lautsprecher zum 
Mikrofon nach. 
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3, Segmentierung 

Die Segmentierung setzt — wie in Fig. 3 gezeigt — 
auf spektraltransformierten Daten auf. Hierzu werden 
5 die Signale blockweise zusammengefaBt (frame) und 
mit einer schnellen Fouriertransformation (FFT) in den 
Frequenzbereich umgesetzt. Durch Betragsbiidung und 
Gewichtung mit einem gehorbezogenen MEL- Filter, 
d. h. einem dem melodischen Empfinden der Tonhohe 
io nachgebildeten Filter, bei dem eine gehorbezogene Ein- 
teilung des Sprachbereiches (-200 Hz bis -6 kHz) in 
einzelne Frequenzbereiche ("Kanale") durchgefuhrt 
wird, werden die Spektralwerte zu Kanaivektoren zu- 
sammengefaBt, die die Leistung in den verschiedenen 
15 Frequenzbandern angeben. Im AnschluB erfolgen eine 
Grobsegmentierung, die permanent aktiv ist und Kom- 
mandoanfang sowie Kommandoende grob erfaBt, sowie 
eine Feinsegmentierung, die im AnschluB daran die ge- 
nauen Grenzen festlegt. 

20 

4. Merkmalsextraktion 

Der Merkmalsextraktor berechnet aus den digitali- 
sierten und segmentierten Sprachsignalen uber mehrere 
25 Stufen hinweg Merkmalsvektoren und bestimmt den 
dazugehorigen normierten Energiewert. 

^ Dazu werden beim sprecherunabhangigen Erkenner 
die Kanaivektoren mit einer diskreten Cosinustransfor- 
mation (DCT) in Cepstralvektoren transformiert. Zu- 
30 satzlich wird die Energie des Signals berechnet und nor- 
miert Parallel dazu wird eine laufende Mittelwertbe- 
rechnung der Cepstraiwerte durchgefuhrt mit dem Ziei, 
den Erkenner sowohi an den momentanen Sprecher als 
auch auf Obertragungscharakteristiken, z. B. des Mikro- 
35 fons und des Kanals (Sprecher — ► Mikrofon) zu adaptie- 
ren. Die Cepstralvektoren werden von diesem adaptier- 
ten Mittelwert befreit und mit der zuvor berechneten 
normierten Energie zu sogenannten CMF-Vektoren 
(Cepstralkoeffizienten mittelwertfrei) zusammengefaBt. 

40 

5. Klassifikation des sprecherunabhangigen 
Verbundwort-Spracherkenners 

5.1 Hidden-Markov-Modeil (HMM) 

45 

Ein Hidden-Markov- Modell ist eine Ansammlung 
von Zustanden, die untereinander durch Obergange 
verbunden sind (Fig. 4). 

Jeder Obergang, von einem Zustand qi zum anderen 
50 qj, wird durch eine sogenannte Obergangswahrschein- 
lichkeit beschrieberu Jedem Knoten (Zustand) ist ein 
Vektor von sogenannten Emissionswahrscheinlichkei- 
ten der Lange M zugeordnet. Ober diese Emissions- 
wahrscheinlichkeiten wird die Verbindung zur physika- 
55 lischen Weit hergestellt Die Modellvorstellung geht so- 
weit, daB in einem bestimmten Zustand qi eines von M 
verschiedenen Symbolen "emittiert" wird, entsprechend 
der zustandsbezogenen Emissibnswahrscheinlichkeit 
Die Symbole stehen stellvertretend fur die Merkmals- 
60 vektoren. Die Folge von "emittierten" Symbolen, die das 
Modell erzeugt, sind sichtbar. Die konkrete Abfolge der 
Zust&nde, die innerhalb des Modells durchlaufen wer- 
den, ist dagegen nicht sichtbar (engl. "hidden"), . 

Ein Hidden-Markov-Modeil ist durch folgende Gro- 
65 Ben definiert: 

T Anzahl der Symbole 
t Zeitpunkt fiir ein beobachtetes Symbol, t = 1 . . .T 
N Anzahl der Zustande (Knoten) des Modells 
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Be) 

Q Zustande des Modells {ql, q2, . . . qn} 
• V Menge der moglichen Symbole 

A Obergangswahrscheinlichkeit vom einem Zustand 
in einen anderen 

B Wahrscheinlichkeit fur ein Ausgabesymbol in ei- 
nem Zustand des Modells (Emissiohswahrscheinlich- 
keit) 

7i Wahrscheinlichkeit fiir den Anfangszustand des 
Modells (beim Training des HMM's). 

Unter Benutzung der Wahrscheinlichkeitsverteilun- 
gen A und B konnen mit Hilfe dieses Modells Ausgabe- 
symbole erzeugt werden. 

5.2 Aufbaudes phonembasierten HMM-Erkenners 

Bei einem Spracherkennungssystem mit groBerem 
Wortschatz basiert die Worterkennung zweckmaBiger- 
weise nicht auf Ganzwdrtern, sondern auf phonetischen 
Wortuntereinheiten. Eine solche Wortuntereinheit ist 
zum Beispiel ein Laut, ein Diphon (Doppellaut) oder ein 
Lauttibergang. Ein zu erkennendes Wort wird dann 
durch die Verkettung der entsprechenden Wortunter- 
einheiten-Modelle dargestellt In Fig. 5 ist als Beispiel 
einer solchen Darstellung mit verketteten Hidden- Mar- 
kov- Modellen zum einen die standardphonetische Be- 
schreibung des Wortes "braten" (Fig. 5a) sowie zum an- 
deren die phonetische Beschreibung von Ausspracheva- 
rianten (Fig. 5b) dargestellt Diese Wortuntereinheiten- 
Modelle werden bei der Erstellung des Systems an 
Stichproben vieler Sprecher trainiert und bilden die Da- 
tenbasis, auf der der "offline Dialog Editor" auf setzt 
Dieses Konzept mit Wortuntereinheiten hat den Vor- 
teil, daB neue Wdrter relativ einfach in das vorhandene 
Lexikon aufgenommen werden konnen, da die Parame- 
ter fiir die Wortuntereinheiten schon bekannt sind. 

Theoretisch kann mit diesem Erkenner ein beliebig 
groBes Vokabular erkannt werde. In der Praxis wird 
man jedoch durch beschrankte Rechenleistung und fur 
die jeweilige Anwendung notwendige Erkennungslei- 
stung an Grenzen stoBen. 

Die Klassifikation basiert auf dem sogenannten Viter- 
bialgorithmus, in welchem die Wahrscheinlichkeit jedes 
Wortes fur die einlaufende Symbolfolge berechnet wird, 
wobei ein Wort hier als Verkettung verschiedener Pho- 
neme zu verstehen ist Der Viterbialgorithmus wird er- 
ganzt durch eine Wortfolgestatistik ("Language Mo- 
dell"), d. h. die im "off-line Dialog Editor" spezifizierten 
Mehrwortkommandos liefern die erlaubten Wortkom- 
binationen. Im Extremfall beinhaltet die Klassifikation 
auch die Erkennung und Aussonderung von Fiillauten 

(\h Hmm P 3u*;n**rf»r Pan^**!*^ riH**r "On rKnor** wort prn" 
v * * r — -*» 1 v — o ~- 

("Nichtwortern"). "Garbageworter" sind sprachliche Er- 
ganzungen, die den eigentlichen Sprachkommandos — 
unndtigerweise — vom Sprecher hinzugefiigt werden, 
die aber in den Vokabularien des Spracherkenners nicht 
enthalten sind. Beispielsweise kann der Sprecher das 
Kommando "preis mit Radius eins" noch erweitern um 
Begriffe wie "Ich mochte jetzt einen ..." oder "Bitte 
einen . . ." 

6. Sprecherabhangiger Erkenner 

Fur die sprecherabhangige Erkennung wird auf der- 
selben Vorverarbeitung aufgesetzt wie fiir den spre- 
cherunabhangigen Erkenner. Aus der Literatur sind un- 
terschiedliche Losungsansatze bekannt (z. B. dynami- 
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sche ZeitnoriflBRIng, Neuronale Netz-Klassifaktoren), 
die ein Training im Echtzeitbetrieb erlauben. Es handelt 
sich hierbei in erster Linie um Einzelworterkenner, wo- 
bei hier vorzugsweise das Verfahren der dynamischen 
5 Zeitnormierung zum Einsatz kommt. Um die Benutzer- 
freundlichkeit zu erhohen, wird eine Kombination von 
sprecherabhangigem und sprecherunabh&ngigem Er- 
kenner im Verbundwortmode verwendet ("Gloria anru- 
fen", "Neues Ziel Onkel Willi", "Funktion Schragellipse 
io darstellen") wobei die Namen "Gloria", "Onkel Willi", 
"Schragellipse" vom Benutzer beim Training frei ge- 
wahit wurden und samt den zugehorigen Telefonnum- 
mern/Zieladressen/Funktionsbeschreibungen in ent- 
sprechenden Listen abgelegt wurden. Der Vorteil dieses 
is Losungsansatzes liegt darin, daB ein bis zwei (oder noch 
mehr) Dialogschritte eingespart werden. 

7. Nachverarbeitung: Syntax und Semantikprufung 

20 Das SDS beinhaltet eine leistungsfahige Nachverar- 
beitung der vom Spracherkenner gelieferten Ergebnis- 
se. Dazu gehoren die syntaktischen Prufungen dahinge- 
hend, ob die ermitteiten Satzhypothesen dem a priori 
festgelegten Aufbau der Sprachkommandos ("Syntax") 

25 entsprechen. Falls nicht, werden die entsprechenden 
Hypothesen verworfen. 

Weiterhin werden die vom Spracherkenner geliefer- 
ten Satzhypothesen auf ihren Sinn und auf ihre Plausibi- 
litat iiberpriift 

30 Nach dieser Plausibiiitatsprufung wird die aktive 
Satzhypothese entweder an die Dialogsteuerung wei- 
tergereicht oder zuriickgewiesen. 

Im Falle einer Riickweisung wird die nachstwahr- 
scheinliche Hypothese des Spracherkenners hergenom- 

35 men und auf gleiche Art und Weise behandelt. 

Im Falle eines syntaktisch korrekten und plausiblen 
Kommandos wird dieses zusammen mit der Beschrei- 
bung der Bedeutung an die Dialogsteuerung weiterge- 
geben. 



40 



8. Dialog- und Ablaufsteuerung 



Die Dialogsteuerung reagiert auf den erkannten Satz 
und bestimmt die auszufuhrenden Funktionen. So z. B. 
45 legtsiefest 

• welche Riickfragen, Informationen oder Aufforde- 
rungen an den Benutzer ausgegeben werden, 

• welche Aktuatoren wie angesprochen werden, 

• welche Systemmodule aktiv sind (sprecherunabhan- 
50 giger Erkenner, Training) 

• welche Teiiwortschatze (Teilvokabularien) fiir die als 
nachstes erwartete Antwort aktiv sind (z. B. nur Ziffern). 

Des weiteren behalt die Dialogsteuerung den Ober- 
blick uber den Status der Applikation, soweit der dem 
55 SDS mitgeteilt wird. Der Dialogsteuerung unterlagert 
ist die Ablaufsteuerung, die die einzelnen Prozesse zeit- 
lich und logisch kontrolliert 



9. Kommunikations- und Kontrollinterface 



60 



Hier wird die Kommunikatibn mit den angeschlosse- 
nen Peripheriegeraten abgewickelt 

Dazu stehen verschiedene Schnittstellen zur Verfii- 
gung. Das SDS setzt i.a. allerdings nicht alle diese 
65 Schnittstellen voraus. Die in der Fig. 2 genannten sind 
nur Moglichkeiten einer Implementierung. 

Das Kommunikations- und Kontrollinterface wickelt 
insbesondere die Sprachein- und -ausgaben z. B. uber 
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A/D-bzw. D/A-Wandler ab. 
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10- SpracheingabeAausgabe 

Die Sprachein/ausgabe setzt sich zusammen aus ei- 
nem "Sprachsignal- Kompressionsmodul" ( = "Sprachen- 
coder"), der die Redundanz bzw. Irrelevanz aus dem 
digitalisierten Sprachsignal entzieht und somit ein 
Sprachsignal defimerter Dauer in einem erheblich klei- 
neren Speicher als direkt nach der A/D-Wandlung able- 
gen kann. Die komprimierte Information wird in einem 
Sprachspeicher abgelegt und fur die Ausgabe im 
"Sprachdecoder" regeneriert, so daB das urspriingliche 
eingegebene Wort ohne groBeren Qualitatsverlust wie- 
der horbar ist. 

Fur die Dialogfiihrung sind im Sprachspeicher bereits 
von vorneherein ("off-line Dialog Editor") eine Reihe 
von Kommandos, Hilfstexten oder Anweisungen abge- 
legt, die den Benutzer bei der Bedienung unterstutzen 
sollen, bzw. ihm Informationen von der Applikationssei- 
te her zukommen lassen. 

Weiterhin wird die Sprachcodierung wahrend des 
Trainings fur den sprecherabhangigen Erkenner akti- 
viert, da der vom Benutzer eingesprochene Namen 
gleichfalls in den Sprachspeicher kommt. Der Benutzer 
kann durch Abhoren seiner Namensliste jederzeit aku- 
stisch iiber den Inhalt, d. h. die einzeinen Namen infor- 
miert werden. Bezuglich Sprachcodier- und -decodieral- 
gorithmus werden Verfahren angewandt, die aus der 
Literatur bekannt sind und per Software auf einem pro- 
grammierbaren Prozessor implementiert werden. 

In Fig. 6 ist ein Beispiel fur einen moglichen Hardwa- 
reaufbau der SDS gemaB Fig. 2 dargesteilt. Die Konfi- 
guration der einzeinen Funktionsblocke sowie die 
Schnittstellen zur Datenein- und Datenausgabe bzw. 
zur Steuerung der angeschlossenen Komponenten ist 
hier nur beispielhaft dargesteilt. Der hier angenommene 
aktive Wortschatz (Vokabular) fur sprecherunabhangig 
gesprochene Worte kann z. B. einige hundert Worte 
umfassen. 

Der digitale Signalprozessor (DSP) ist ein handelsiib- 
Iicher programmierbarer Prozessor, der sich von einem 
Mikro prozessor durch andere Busarchitektur (z. B. Har- 
vard-Architektur statt Von- Neumann- Architektur), 
spezielle "on-chip"- Hardware- Rechenwerke (Multipii- 
zierer/Akkumulatoren/Shifter etc.) und I/O-Funktiona- 
Iitaten auszeichnet, die bei echtzeitiger digitaler Signal- 
verarbeitung benotigt werden. In zunehmendem MaBe 
bieten leistungsfahige RISC-Prozessoren ahnliche 
Funktionalitaten wie DSPs und konnen diese ggf. erset- 
zen. 

Der DSP (bzw. ein anderer Mikroprozessor ver- 
gleichbarer Leistungsfahigkeit) kann mit Ausnahme 
spezieller Interface-Kontrollfunktionen samtliche in 
Fig. 2 dargestellte Funktionen per Software bzw. inte- 
grierter Hardware abwickeln. Mit derzeit handelsiibli- 
chen DSPs lassen sich mit dem hier vorgestellten Kon- 
zept Wortschatze von z. B. ca. 100 bis 200 Worten reali- 
sieren, wobei davon ausgegangen wird, daB dieser 
Wortschatz vollstandig zur Auswahl steht als "aktives 
Vokabular'' und nicht durch Bildung von Teilvokabula- 
rien erheblich kleiner ist Fiir den Fall, daB Teilvokabu- 
larien gebildet werden, kann jedes davon die genannte 
GroBe umfassen. 

Durch die Hardwarestruktur gemaB Fig. 6 und insbe- 
sondere durch den Verzicht auf zusatzliche Spezialbau- 
steine fiir die Erkennung und/oder fiir Dialogabwick- 
lung, Ablaufsteuerung, Sprachkodierung und Interface- 



Protokollabwicklung bietet sich die Chance einer Reali- 
sierung mit einer kompakten, kostengiinstigen Hardwa- 
re mit niedrigem Stromverbrauch. Durch die technolo- 
gische Weiterentwicklung werden zukiinftig hohere Re- 
5 chenleistungen auf den DSPs verfugbar sein und groBe- 
re Speicherbereiche adressierbar sein, so daB umfang- 
reichere Vokabularien bzw. leistungsfahigere Algorith- 
men realisierbar sein werden. 

Das SDS wird durch die an den DSP angeschlossene 

io "push-totalk"-Taste (PTT) aktiviert. Ein Bestatigen die- 
ser Taste veranlaBt die Steuersoftware, den Erkennvor- 
gang zu starten. Teile der Signalverarbeitungssoftware 
sind immer aktiv (Gerauschreduktion, Echokompensa- 
tion), wahrend die Klassifikation oder die Dialogsteue- 

15 rung erst durch die PTT aktiviert werden. Im einzeinen 
sind folgende Module vorhanden: 
# A/D- und D/A- Wandler: 

Ober einen angeschlossenen A/D- und D/A- Wandler 
werden 
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— das Mikrofonsignal und ggf. die Lautsprechersi- 
gnale digitalisiert und zur weiteren Verarbeitung 
an den DSP ubertragen, 

— die digitalisierten Sprachdaten zur Sprachausga- 
be/ Dialogsteuerung in ein Analogsignal zuriickge- 
wandelt, verstarkt und an ein geeignetes Wiederga- 
bemedium(z. B. Lautsprecher) weitergereicht 



• D2B optical: 

30 Dies ist ein optisches Bussystem, iiber welches diverse 
Audio- und Informationsgerate gesteuert werden kon- 
nen (z. B.; Autoradio und CD Wechsier, Autotelefon und 
Navigationsgerate . . .). Dieser Bus ubertragt nicht nur 
Steuer-, sondern auch Audiodaten; im Extremfall (d. h. 

55 wenn Mikrofon- und Lautsprechersignal hieriiber ge- 
schickt werden) erubrigt sich A/D- und D/A-Wandlung 
im SDS. 

• CAN Bus: 

Dies ist ein Bussystem, iiber welches Informationsgerate 
40 und Aktuatoren im Kfz gesteuert werden konnen; Au- 
dioubertragung ist in der Regel nicht moglich. 

• V.24-SchnittsteIIe: 

Diese Schnittstelle kann zur Steuerung diverser Peri- 
pheriegerate dieneri. Weiterhin kann iiber diese Schnitt- 
45 stelle die Software des SBS aktualisiert werden. So kann 
ein entsprechender Wortschatz oder eine entsprechen- . 
de Sprache (z. B.: Deutsch, Englisch, Franzosisch . . .) ge- 
laden werden. 

• PCMCIA-Interface: 

50 Diese Schnittstelle dient neben der Kommunikation mit 
einem Desktop- oder Portable Computer auch der 
Spannungsversorgung des SDS. Mehrere der oben an- 
gefiihrten Funktionen konnen hier zusammengefaBt 
werden. Weiterhin beschreibt diese Schnittstelle neben 

55 den elektrischen Eigenschaften auch die mechanischen 
Abmessungen des SDS. Diese sind z. B. so ausgewahlt, 
daB das SDS in einen PCMCIA-Schacht eines Desktop- 
oder Portable Computers gesteckt werden kann. 

• Speicher: 

eo Der an den DSP angeschlossene Speicher (Daten/Pro- 
gramm-RAM und ROM) dient dem DSP als Programm 
und Datenspeicher. Ferner beinhaltet dieser die spezifi- 
schen Klassifikations-Modelle und ggf. die Referenzmu- 
ster fiir die beiden Spracherkenner und die Festtexte 

65 zur Dialogsteuerung und zur Benutzerfuhrung. In einem 
FLASH- oder batteriegepufferten Speicher werden die 
benutzerspezifischen Informationen abgelegt (Adress-, 
Datenlisten). 
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FunktionsbeschreiB^^am Beispiel eines 
sprachbedienten Autotelefons 

Im folgenden sind nun die Dialogablaufe exempla- 
risch am Beispiel einer sprachgesteuerten Telefonsteue- 
rung (z. B. in einem Kfz) beschrieben. 

Dieses Beispiel laBt sich erweitern auf die Ansteue- 
rung von Telefon -f Radio + CD + Navigation im Kfz 
bzw. auf die Bedienung eines CAE- Arbeitspiatzes o.a. 

Charakteristisch ist fur jedes dieser Beispiele: 



Zustandsdiagramm SDS (Fig. 7) 



Dieser Zustand setzt voraus, da8 das entsprechende 
Schlusselwort "Namenswahl" bzw. 'Telefon Namens- 
wahl" o. a. richtig erkannt wurde. In diesem Zustand ist 
die Wahl einer Telefonnummer durch eine Eingabe ei- 
nes Namens moglich. Dazu wird auf einen sprecherab- 
hangigen Spracherkenner umgeschaltet. 

Das Sprachdialogsystem fordert zur Eingabe eines 
Namens auf. Dieser wird dem Benutzer bestatigt. Das 
Sprachdialogsystem schaltet nun wieder auf den spre- 
cherunabhangigen Erkenner urn. 

Sollte der Namen falsch verstanden worden sein, so 
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kann durch ^■^Abbruchfunktion (Abbruchtaste) ein 
Wahien der Telefonnummer verhindert werden. Alter- 
nativ hierzu ist auch eine Ruckfrage des SDS denkbar, 
ob die dem Sprachkommando zugeordnete Aktion/ 
5 Funktion ausgefuhrt werden soil oder nicht. 

Der Umfang des Telefonbuches kann je nach Auf- 
wand bzw. Speicherplatz z. B. 50 oder mehr gespeicher- 
te Namen umfassen. Die Funktionsablaufe des Betriebs- 
zustandes "Namenswahl" sind in Fig. 9 in Form eines 
io FluBdiagramms dargestellt 



— Die sprecherunabh&ngige Erkennung von 
Mehrwortkommandos, sowie Buchstaben- oder 
Ziffernkolonnen, 

— die sprecherabhangige Eingabe eines vom Be- \s 
nutzer vorher trainierten, freigewahlten Namens, 
dem zugeordnet ist eine Funktion, ein Zahlencode 
(z. B. Telefonnummer eines Telefonbuches oder 
Senderfrequenz einer Radiosenderliste) oder eine 
Buchstabenkombination (z. B. Zielort bei Naviga- 20 
tionssystemen). 

Bei der Definition der Zuordnung gibt der Benut- 
zer die Funktion, Buchstaben- oder Ziffernkombi- 
nation im sprecherunabhangigen Verbundwortmo- 
de ein (wobei die Funktion, die Buchstaben, Ziffern 25 
Teil des zulassigen Vokabulars, d. h. mit "off-line 
Dialog Editor" vorab festgelegt sein mussen). 

— Mit dieser Namenswahl verbunden ist stets die 
Verwaltung einer entsprechenden Liste unter- 
schiedlicher Namen desselben Benutzers (Telefon- 30 
buch, Senderliste, Zielortliste). Diese Liste kann er- 
weitert, geloscht, abgefragt oder korrigiert werden. 
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Wahrend der Bedienung des Telefons uber die 
Spracheingabe nimmt diese unterschiedliche Zustande 
ein. Die Obergange werden durch AuBerung von 
Schlusselworten gesteuert, wobei die Einieitung einer 
AuBerung durch die PTT-Taste erfolgt. Ein Gesprachs- 40 
abbruch erfolgt z. B. durch eine Abbruchtaste. 

Betriebszustand "Deaktiviert" 

Das Sprachdialogsystem ist in diesem Zustand abge- 45 
schaltet. 

Betriebszustand "Aktiv" (Fig. 8) 

Das Sprachdialogsystem ist aktiviert und wartet nun 50 
auf die zur weiteren Steuerung der Peripheriegerate 
erlaubten Kommandos. Die Funktionsablaufe des Be- 
triebszustandes "Aktiv" sind in Fig. 8 in Form eines 
FluBdiagramms (beispielhaft) dargestellt. 

55 

Betriebszustand "Namenswahl" (Fig. 9) 



Betriebszustand "Nummernwahr(Fig. 10) 

Dieser Zustand setzt voraus, daB das entsprechende 
Schlusselwort richtig erkannt wurde. In diesem Zustand 
erfolgt die Wahl einer Telefonnummer durch eine Ein- 
gabe einer Zahlenfolge. Die Eingabe erfolgt verbunden 
und sprecherunabhangig. 

Der Spracherkenner fordert zur Eingabe einer Num- 
mer auf. Diese wird dem Benutzer bestatigt Nach der 
Aufforderung "wahien" wird die Verbindung hergestellt. 

Sollte die Nummer falsch verstanden worden sein, so 
kann durch eine Fehlerfunktion die Nummer korrigiert 
werden oder uber eine Abbruchfunktion, z. B. dem 
Kommando "Beenden" die Sprachbedienung abgebro- 
chen werden. 

Die Funktionsablaufe des Betriebszustandes "Num- 
mernwahl" sind in Fig. 10 in Form eines FluBdiagramms 
dargestellt. 

Betriebszustand "Verbindung" 

Die Verbindung ist aufgebaut. In diesem Zustand ist 
die Spracherkennungseinheit deaktiviert. Das Telefon- 
gesprach wird z. B. durch die Abbruchtaste beendet. 

Betriebszustand "Nummer speichern/Namen speichern" 

Nachdem auf das Schlusselwort "Nummer speichern" 
bzw. "Namen speichern" hin das SDS den Benutzer/ 
Sprecher aufgefordert hat, die Ziffern einzugeben und 
der Benutzer diese eingesprochen hat (vgl. Betriebszu- 
stand "Nummernwahl") wird anstelle des Kommandos 
"wahien" das Kommando "speichern" bzw. ein vergleich- 
bares eingegeben. Die Telefonnummer wird nunmehr 
gespeichert Das SDS fordert anschlieBend den Benut- 
zer auf, den zugehorigen Namen einzusprechen und iaBt 
die Namenseingabe zur Verbesserung des Trainingser- 
gebnisses ein- oder mehrfach wiederholen. Nach dieser 
Wiederhoiung ist der Dialog beendet Zu erganzen ist, 
daB die anfangliche Zifferneingabe durch Dialog- Kom- 
mandos wie "abbrechen" bzw. "Abbruch", "wiederholen", 
"korrigieren" bzw. "Korrektur", "Fehler" usw. kontrol- 
liert werden kann. 

Betriebszustand "Telefonbuch loschen/Namen loschen" 



In Zusammenhang mit dem "Telefonbuch" (Liste aller 
trainierten Namen und zugehorigen Telefonnummern) 
60 sind eine Reihe von Editierfunktionen definiert, die den 
Komfort des Systems fur den Benutzer erhohen, wie 
z. B.: 

Telefonbuch loschen: 

Komplettes oder selektives Loschen, wobei durch 
65 Ruckfrage ("Sind sie sicher?') des SDS vor dem endgul- 
tigen Loschen und durch ggf. Ausgabe des spezifischen 
Namens ein versehentlichen Loschen durch Erken- 
nungsfehler vermieden wird. 
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Namen loschen: 
Das SDS fordert den Benutzer auf, den zu loschenden 
Namen zu sprechen. Der Name wird vom SDS wieder- 
holt. Danach wird der Benutzer mit der Frage "Sind sie 
sicher?" aufgefordert, den Loschvorgang zu bestatigen: 5 
Die Eingabe des Sprachkommandos "Ja" veranlaBt das 
Loschen des Namens aus dem Telefonbuch. 

Jedes andere als Sprachkommando eingegebene 
Wort beendet den Dialog. 

Betriebszustand 'Telefonbuch anhoren": 1 0 

Das SDS sagt das gesamte Telefonbuch an. Ein Bestati- 
gen der PIT oder die Eingabe eines Abbruchkomman- 
dos bricht den Dialog ab. 

Betriebszustand "Telefonbuch wahlen": 
Das SDS sagt das Telefonbuch komplett an. Wird bei '15 
dem gewiinschten Namen ein Abbruch- oder Wahlkom- 
mando gegeben bzw. die FIT betatigt, so wird der aus- 
gewahlte Namen noch einmal angesagt und nachgefragt 
"Soil die Nummer gewahlt werden?" Die Eingabe des 
Sprachkommandos "Ja" veranlaBt den Wahlvorgang, 20 
d. h. die Verbindung wird hergestellt 

"Nein" veranlaBt das SDS, das Ansagen des Telefon- 
buches fortzusetzen. 

"Abbruch/abbrechen" beendet den Dialog. 
Die Eigenschaften des zuvor beschriebenen SDS kon- 25 
nen wie folgt zusammengefaBt werden: 
Benutzt wird ein Verfahren zur automatischen Steue- 
rung und/ oder Bedienung von einem oder mehreren 
Geraten per Sprachkommandos bzw. per Sprachdialog 
im Echtzeitbetrieb, bei dem Verfahren zur Sprachaus- 30 
gabe, Sprachsignalvorverarbeitung und Spracherken- 
nung, syntaktisch-grammatikalischen Nachverarbeitung 
sowie Dialog-, Ablauf- und Schnittstellensteuerung zur 
Anwendung kommen. Das Verfahren in seiner Grund- 
version ist im "on-line"- Betrieb durch eine fixierte Syn- 35 
tax- und Kommandostruktur, sowie durch eine Kombi- 
nation von fixiertem Vokabular (sprecherunabhangiger 
Erkenner) und frei definierbarem Vokabular, wie z. B. 
Namen (sprecherabhangiger Erkenner), gekennzeich- 
net. In vorteilhaften Aus- und Weiterbildungen kann es 40 
durch eine Reihe von Merkmalen charakterisiert wer- 
den, wonach vorgesehen ist, daB: 

— Syntax- und Kommandostruktur w&hrend des 
Echtzeit-Dialogbetriebs fixiert sind, 45 

— Vorverarbeitung, Erkennung und Dialogsteue- 
rung fur Betrieb in gerauschbehafteter Umgebung 
ausgelegt sind, 

— fur die Erkennung allgemeiner Kommandos, Na- 
men oder Daten kein Training durch den Benutzer 50 
erforderlich ist ("Sprecherunabhangigkeit"), 

— fur die Erkennung spezifischer Namen, Daten 
oder Kommandos einzelner Benutzer ein Training 
notwendig ist ("Sprecherabhangigkeit" bei benut- 
zerspezifischen Namen), 55 

— die Eingabe von Kommandos, Namen oder Da- 
ten vorzugsweise verbunden erfoigt, wobei die An- 
zahl der Worte, aus denen ein Kommando fur die 
Spracheingabe gebildet wird, variabel ist, d. h. daB 
nicht nur Ein- oder Zweiwortkommandos, sondern eo 
auch Drei-, Vier- oder Mehrwortkommados defi- 
niert werden konnen, 

— eine echtzeitige Verarbeitung und Abwicklung 
des Sprachdialoges gegeben ist, 

— die Sprachein- und -ausgabe nicht nur uber 65 
Handapparat, Kopfhorer, Headset o. a., sondern 
vorzugsweise im Freisprechbetrieb erfoigt, 

— die bei Freisprechen im Mikrofon registrierten 



• 
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Lautsprecherechos eKktrisch kompensiert werden, 
urn gleichzeitigen Betrieb von Spracheingabe und 
Lautsprecher (z. B. fur Sprachausgabe, Ready-Si- 
gnaie etc.) zu ermoglichenf'Echokompensation"), 

— eine laufende automatische Anpassung an die 
analoge Obertragungscharakteristik (Raumaku- 
stik, Mikrofon- und Verstarkercharakteristik, Spre- 
chercharakteristik) im Betrieb erfoigt, 

— im "off-line Dialog Editor" die Syntaxstruktur, 
die Dialogstruktur, das Vokabular und Aussprache- 
varianten fiir den Erkenner neu konfiguriert und 
festgelegt werden konnen, ohne daB dies zusatzli- 
cher oder neuer Sprachaufnahmen fiir den unab- 
hangigen Erkenner bedarf, 

— im "off-line Dialog Editor" der Sprachumfang fur 
die Sprachausgabe festgelegt wird, wobei 

a) die registrierten Sprachsignale einer digitalen 
Sprachdatenkompression unterworfen werden 
("Sprachcodierung"), anschlieBend abgespeichert 
werden und im echtzeitigen Sprachausgabebetrieb 
nach Auslesen aus dem Speicher eine entsprechen- 
de Sprachdecodierung erfoigt, oder b) der Sprach- 
umfang in Form von Text abgespeichert wurde und 
im echtzeitigen Sprachausgabebetrieb einer 'Text 
to Speech"-Synthese unterworfen wird, 

— die Wortstellung durch Vertauschen einzelner 
Worte eines Kommandos veranderbar ist, 

— vorgegebene synonyme Worte nutzbar sind, 

— die gleiche Funktion durch Kommandos unter- 
schiedlicher Wortanzahl (z. B. durch Zweiwort- 
oder Dreiwortkommandos) realisiert werden kann, 

— zur Erkennung und anschlieBender Aussonde- 
rung von Einfugungen wie "Ah", "Hm", "Bitte", oder 
anderer nicht zum Vokabular gehdriger Komman- 
dos dem Nutzvokabular weitere Worter bzw. Laut- 
einheiten hinzugefilgt werden ("Nichtworter, Gar- 
bagew6rte^ ,, ) bzw. Wordspottingansatze genutzt 
werden, 

— die Dialogstruktur durch folgende Eigenschaf- 
ten sich auszeichnet: 

— flache Hierarchie, d. h. einige wenige Hier- 
archieebenen, vorzugsweise eine oder zwei 
Auswahlebenen, 

— Einbindung von "Ellipsen" d. h. Verzicht auf 
Wiederholung ganzer Kommandosatze mit 
mehreren Kommando worten; statt dessen Be- 
schrankung auf kurze Kommandos, z. B. "wei- 
ter", "hoher", "starker" , wobei dem System aus 
dem jeweils vorigen Kommando bekannt ist, 
worauf sich diese Aussage bezieht, 

— Einbeziehung von "Hilfe-" oder "Info-Me- 
nus", 

— Einbeziehung von Riickfragen von seiten 
des SDS bei unsicheren Entscheidungen des 
Erkenners ("Wie bitte", "bitte wiederholen", 
"und weiter"), 

— Einbeziehung von Sprachausgaben, um 
durch Anregung bestimmter Sprechweisen die 
Erkennsicherheit zu steigern (z. B. durch die 
Aufforderung: "bitte lauter"), 

— die Spracherkennung durch Betatigung einer 
"Push-totalk"-Taste ("PTT") aktiviert und dies aku- 
stisch quittiert wird (z. B. durch einen "Pieps"-Ton), 
um anzuzeigen, daB die Eingabe nunmehr erfolgen 
kann, 

— auf die Betatigung der PTT verzichtet werden 
kann, wenn nach Riickfragen von Seiten der 
Sprachausgabe im AnschluB daran Spracheingaben 
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erforderlich sind f wod^PG PTT 

— entweder Mehrfachfunktionen wahrnimmt 
oder beinhaltet, z. B. wahrend des Telefonie- 
rens ("Auflegen des Horers" "Abheben des 
Horers") bzw. beim Neustart des Sprachdia- 5 
logsystems bzw. beim Abbruch eines Telefon- 
wahlvorgangs, 

— oder erganzt wird durch zusatzliche Schal- 
ter, welche z. B. einen Neustart oder den Ab- 
bruch einer Funktion/Aktion erlauben, 10 

— das Dialogsystem eines oder mehrere der fol- 
genden Leistungsmerkmale aufweist: 

— die spezifischen (z. B. trainierten) Komman- 
dos, Daten, Namen oder Parameter unter- 
schiedlicher Benutzer werden bei Bedarf fur 15 
spatere Wiederbenutzung festgehalten, 

— vom Sprecher trainierte Kommandos bzw. 
Namen werden wahrend der Trainingsphase 
nicht nur der Erkennung zugefuhrt, sondern 
auch in ihrem zeitlichen Verlauf aufgenom- 20 
men, einer Datenkompression ("Sprachkodie- 
rung") zugefuhrt und nichtfluchtig gespeichert, 

— die vom Sprecher trainierten Kommandos 
bzw. Namen werden wahrend der Trainings- 
phase derart verarbeitet, daB Umgebungsge- 25 
rausche wahrend der Aufnahme weitgehend 
kompensiert werden, 

— der AbschluB eines Erkennvorganges optisch 
bzw. akustisch quittiert wird ("Pieps"-Ton o.a.) 
oder alternativ hierzu bei sicherheits- bzw. zeit- 30 
oder kostenrelevanten Entscheidungen das Erken- 
nungsergebnis akustisch wiederholt wird (Sprach- 
ausgabe) und der Benutzer die Moglichkeit hat, 
durch ein verbales Kommando oder durch Betati- 
gen eines Schalters (z. B. PTT) die Ausfuhrung der 35 
Aktion zu unterbinden, 

— das Sprachdialogsystem mit einem optischen 
Anzeigemedium (LCD Display, Monitor o. a.) ge- 
koppelt ist, wobei das pptische Anzeigenmedium 
einzeine oder mehrere der folgenden Funktionen 40 
ubernehmen kann: 

— Ausgabe der erkannten Befehle zu Kon- 
trollzwecken, 

— Darsteilung der vom Zielgerat als Reaktion 
auf das Sprachkommando eingestellten Funk- 45 
tionen, 

— Darsteilung verschiedener Funktionen/Al- 
ternativen, die per Sprachkommando anschlie- 
Bend eingestelit bzw. ausgewahlt oder modifi- 
ziert werden, 50 

— jeder Benutzer eigene Namens- oder Abkur- 
zungslisten einrichten kann (vergleichbar einem 
Telefon- oder AdreBbuch), wobei 

— dem vom Benutzer beim sprecherabhangi- 
gen Erkenner trainierte Namen eine Ziffern- 55 
kette, Buchstabenkette oder ein Kommando 
bzw. eine Kommandosequenz zugeordnet ist, 
die im sprecherunabhangigen Betriebsmode 
eingegeben wurde, 

— anstelle der erneuten Eingabe der Ziffern- 60 
kette, Buchstabenkette oder Kommandose- 
quenz der Benutzer die Listenbezeichnung 
und den von ihm gewahlten Namen eingibt, 
oder neben dem Namen ein geeignetes Kom- 
mando eingegeben wird, welches auf die richti- 65 
ge Liste schiieBen iaBt, 

— die Liste sprachgesteuert jederzeit um wei- 
tere Eintrage erweitert werden kann, 
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liste sprachgesteuert komplett oder se- 
lektiv geloscht werden kann, 

— die Liste auf einen Sprachbefehl hin abge- 
hort werden kann, wobei die vom Benutzer 
eingegebenen Namen und bei Bedarf die zuge- 
horigen Ziffernkette, Buchstabenkette bzw. 
Kommandos akustisch ausgegeben werden, 

— die akustische Ausgabe der Liste zu jedem 
beliebigen Zeitpunkt abgebrochen werden 
kann, wobei bei der auf das Kommando "Feh- 
lern, o. a. bzw. auf das Kommando "wiederho- 
len" folgenden Ausgabe der bisher eingespro- 
chenen Ziffern dieselbe Blockung benutzt wird 
wie bei der Eingabe, 

— eine Folge von Ziffern (Ziffernkolonne) entwe- 
der an einem Stuck (zusammenhangend) oder 
blockweise eingesprochen werden kann, wobei 

— nach jeder Eingabepause eine Quittierung 
erfolgt, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 

— nach der Quittierung durch ein Kommando 
"Fehler", "falsch" o. a. der letzte Eingabeblock 
geloscht werden und die verbleibenden, ge- 
speicherten Blocke akustisch ausgegeben wer- 
den, 

— nach der Quittierung durch ein Kommando 
"Loschen" oder eine ahnliche Kommandoein- 
gabe alle eingegebenen Ziffernblocke geloscht 
werden konnen, 

— nach der Quittierung durch ein Kommando 
"wiederholen" o. a. die bisher gespeicherten 
Blocke akustisch ausgegeben werden konnen, 

— nach der Quittierung durch ein Kommando 
"Abbruch" oder eine ahnliche Kommandoein- 
gabe die Eingabe der Ziffernkolonne vollstan- 
dig abgebrochen werden kann, 

— nach der Quittierung weitere Ziffern bzw. 
Ziffernblocke eingegeben werden konnen, 

— nach der Quittierung die Zifferneingabe 
durch ein geeignetes Kommando abgeschlos- 
sen wird, 

— eine Folge von Buchstaben (Buchstabenkolon- 
ne) eingesprochen wird, welche zur Auswahl kom- 
plexer Funktionen bzw. zur Eingabe einer Vielzahl 
von Informationen vorgesehen wird, wobei die 
Buchstabenkolonne zusammenhangend oder 
blockweise eingegeben wird und 

— nach jeder Eingabepause eine Quittierung 
erfolgt, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 

— nach der Quittierung durch ein Kommando 
"Fehler", "falsch" o. a. der letzte Eingabeblock 
geloscht wird und die verbleibenden. gespei- 
cherten Blocke akustisch ausgegeben werden, 

— nach der Quittierung durch ein Kommando 
"Loschen" o. a. alle eingegebenen Buchstaben 
geloscht werden konnen, und im AnschluB dar- 
an eine erneute Eingabe erfolgt, 

— nach der Quittierung durch ein Kommando 
"wiederholen" o. a. die bisher gespeicherten 
Blocke akustisch ausgegeben werden konnen, 

— nach der Quittierung weitere Buchstaben 
bzw. Buchstabenblocke eingegeben werden 
konnen, 

— gegebenenfalls ein Abgleich der Buchsta- 
benkolonne mit einer gespeicherten Wortliste 
erfolgt und daraus das (die) bestpassende(n) 
Wort (Worter) extrahiert wird (werden); alter- 
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nativ hierzu kann dieser Abgreich bereits nach 
Eingabe der einzelnen Buchstabenblocks er- 
folgen, 

— nach der Quittierung durch ein Kommando 
"Abbruch" oder eine ahnliche Kommandoein- 
gabe die Eingabe der Buchstabenkoionne voll- 
standig abgebrochen werden kann, 

— nach der Quittierung die Buchstabeneinga- 
be durch ein geeignetes Kommando abge- 
schlossen wird, 

— die Ausgabelautstarke der Sprachausgabe und 
des "Pieps"-Tons den Umgebungsgerauschen ange- 
paBt sind, wobei die Umgebungsgerausche wah- 
rend der Sprachpausen bezugiich ihrer Starke und 
Charakteristik erfafit werden, 

— der Zugang zum Sprachdialogsystem bzw. der 
Zugriff auf benutzerspezifische Daten/Komman- 
dos nur durch Eingabe spezieller Kommandoworte 
bzw. durch Eingabe spezieller Kommandoworte ei- 
nes autorisierten Sprechers erfolgt, dessen Sprach- 
charakteristika dem Dialogsystem bekannt sind 
und von diesem gepriift werden, 

— linger andauemde Sprachausgaben (z. B. Info- 
Menus) durch gesprochene oder manuelle Ab- 
bruchkommandos oder durch die PTT- oder die 
Abbruchtaste vorzeitig beendet werden konnen, 

— das Sprachdialogsystem in einer der folgenden 
Formen die manuelle Bedienung obiger Funktio- 
nen (z. B. per Schalter, Taste, Drehknopf) erganzt 
oder ersetzt: 

— die Sprachkommandierung ersetzt keinerlei 
manuelle Bedienung, sondern existiert neben 
der manuellen Bedienung, d. h. die Bedienung 
kann jederzeit manuell erfolgen bzw. weiter- 
gefiihrt werden, 

— einige spezielle Leistungsmerkmale sind 
nur per Spracheingabe aktivierbar, die we- 
sentlichen Gerate- und Bedienfunktionen blei- 
ben sowohl manuell wie per Sprache komman- 
dierbar, 

— die Anzahl der manuellen Bedienelemente 
wird deutlich reduziert, einzelne Tasten bzw. 
Drehknopfe ubernehmen Mehrfachfunktion. 
Per Sprache wird manuellen Bedienelementen 
eine spezielle Funktion zugewiesen. Nur we- 
sentliche Bedienfunktionen sind noch manuell 
ansteuerbar. Die Basis ist die Sprachkomman- 
dierung, 

— mit einem einzigen Mehrwortkommando eine 
Vielzahl unterschiedliche Gerate sowie Gerate- 
funktionen ansprech- und modifizierbar sind und 
somit eine umstandliche mehrstufige Vorgehens- 
weise (z. B. Auswahl des Gerates im 1. Schritt, da- 
nach Auswahl der Funktion im 2. Schritt, danach 
Auswahl der Art der Anderung im 3. Schritt) nicht 
erforderlich ist, 

— das Sprachdialogsystem im Kfz fur einzelne 
oder mehrere der im folgenden genannten Funktio- 
nen zur Anwendung kommt: 

— Bedienung einzelner oder mehrerer Gerate, 
wie z. B. Autotelefon, Autoradio (ggf. mit Kas- 
sette, CD-Wechsler, Soundsystem), Naviga- 
tionssystem, Klimaanlage, Heizung, Reiserech- 
ner, Beleuchtung, Schiebedach, Fensterheber, 
Sitzversteller, Sitzheizung, Heckscheibenhei- 
zung, Spiegelverstellung und -memory, Sitz- 
verstellung und -memory, Lenkradverstellung 
und -memory etc, 



— Informations5bfrage von Parametern, wie 
Oldruck, -temperatur, Wassertemperatur, Ver- 
brauch, Reifendruck etc., 

— Information uber notwendige MaBnahmen 
5 in besonderen Situationen, z. B. bei hoher 

Wassertemperatur, geringem Reifendruck etc, 

— Warnung des Fahrers bei Defekten, 
wobei 

— die sprachgesteuerte Auswahl eines neuen Sen- 
io ders im Autoradio nach einem der folgenden Ab- 

laufe erfolgt 

— Kommandierung des Suchlaufs auf- bzw. 
abwarts, 

— Spracheingabe der Senderfrequenz vor- 
-15 zugsweise in der umgangssprach lichen Form 

(z. B. "Einhundertdreikommasieben" bzw. 
"Hundertdreikornmasieben" "Hundertunddrei- 
kommasieben" bzw. einschlieBlich der Fre- 
quenzangabe (z. B. "Hundertdreikornmasieben 
20 MegaHertz"), 

— Spracheingabe des gebrauchlichen Sender- 
namens(z. B. "SDRl"), 

— bei der Klimaanlage die gewunschte Tempera- 
tur (ggf. nach dem Ort der Fahrgastzelle des Kfz 

25 gestaffelt nach links, rechts, vorne, hinten) per 
Spracheingabe nicht nur relativ, sondern vorzugs- 
weise absolut (d. h. in Grad, Fahrenheit o. a.) festge- 
legt werden kann und zusatzlich minimale bzw. ma- 
ximale bzw. mittlere Temperatur oder die Normal- 

30 temperatur kommandiert werden konnen; ahnlich 
konnen die Betriebsbedingungen fur das Gebl&se 
im Fahrgastraum festgelegt werden. 

— dem Navigationssystem ein Zielort (Ortsname, 
StraQenname) durch Eingabe von Buchstabenko- 

35 lonnen im "Buchstabiermode" mitgeteilt wird, wo- 
bei auch der Anfang des Namens als Eingabe ge- 
niigt und das Navigationssystem gegebenenfalls 
mehrere Kandidaten zur Auswahl anbietet, 

— eine oder mehrere der folgenden benutzerspezi- 
40 fischen Namenslisten eingerichtet werden: 

— Liste zur Speicherung von Telefonnum- 
mern unter vorgebbaren Namen/Abkiirzun- 
gen, 

— Liste zur Speicherung von Zielen fur das 
45 Navigationssystem unter vorgebbaren Na- 

men/Abkiirzungen, 

— Liste zur Speicherung von Funktionsnamen 
fur Kommandos oder Kommandofolgen, 

— Liste zur Speicherung von Senderfrequen- 
so zen des Autoradios unter vorgebbaren Sen- 

dernamen bzw. Abkiirzungen, 

— die Ausgabelautstarke der Sprachausgabe und 
des "Pieps"-Tons, ggf. auch die Radiolautstarke und 
die Geblaseeinstellung, unter Berucksichtigung ei- 

55 nes oder mehrerer der folgenden Parameter festge- 
legt werden: 

— Fahrzeuggeschwindigkeit, 

— Drehzahl, 

— Offnungsbreite der Fenster und des Schie- 
60 bedaches, 

— Fahrzeugtyp, 

— Wichtigkeit der Sprachausgabe in der je- 
weiligen Dialogsituation. 

65 In bezug auf die Vorrichtung zur Realisierung eines 
Sprachdialogsystems ist u. a. vorgesehen, daB die Ab- 
lauf-, Dialog-, Schnittstellensteuerung, die Sprachein- 
/-ausgabe sowie die Sprachsignalvorverarbeitung, Er- 
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kennung syntaktisch-gralWRikalische und semanti- 
sche Nachverarbeitung mittels Mikro- und Signalpro- 
zessoren, Speichern und Schnittstellenbausteinen er- 
folgt, vorzugsweise aber mit einem einzigen digitalen 
Signal- oder Mikroprozessor sowie dem erforderlichen 
externen Daten- und Programmspeicher, den Interfaces 
sowie den zugehorigen Treiberbausteinen, dem Taktge- 
nerator, der Steuerlogik und den fiir Sprachein-Aausga- 
be erforderlichen Mikrofonen und Lautsprechern samt 
zugehorigen Wandlern und Verstarkern sowie gegebe- 
nenfalls einer Push-to-talk(PTT>Taste und/oder Ab- 
bruchtaste. 
Ferner ist vorgesehen, daB uber ein Interface 
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darin, daB 

• fur relativ begrenzte Anwendungen mit kleiner Syn- 
tax die syntaktische Oberprufung in Form eines syntak- 
tischen Bigram-Sprachmodells in den Erkennungspro- 
5 zeB einbezogen wird und somit die syntaktische Nach- 
verarbeitung entfallen kann, 

bei komplexen Aufgabenstellungen die Schnittstelle 
zwischen Erkenner und Nachverarbeitung nicht mehr 
einzelne Satze, sondern ein sog. "Worthypothesennetz" 
io ist, aus dem in einer Nachverarbeitungsstufe aufgrund 
syntaktischer Vorgaben mit spezieilen Paarungs-Strate- 
gien der bestpassende Satz extrahiert wird. 



— Daten und/oder Parameter ladbar bzw. nachlad- is 
bar sind, um z. B. Verfahrensanderungen oder ein 
Sprachdialogsystem fur eine andere Sprache zu 
realisieren, 

— die auf einem separaten Rechner festgelegte 
oder modifizierte Syntaxstruktur, Dialogstruktur, 2 o 
Ablaufsteuerung, Sprachausgabe etc. auf das 
Sprachdialogsystem ubertragen werden ("ofMinie 
Dialog Editor^ 

— das Sprachdialogsystem mit mehreren der anzu- 
steuernden Gerate uber ein Bussystem und/oder 25 
ein ringformiges Netzwerk verknupft ist (anstelle 
von Punkt zu Punkt-Verbindungen zu den einzel- 
nen Geraten) und daB uber diesen Bus bzw. das 
Netzwerk Steuerdaten bzw. Audiosignale bzw. Sta- 
tusmeldungen des Kfz bzw. der zu bedienenden 30 
Gerate ubertragen werden, 

— die einzelnen anzusteuernden Gerate nicht je- 
weils ein eigenes Sprachdialogsystem enthalten, 
sondern von einem einzigen Sprachdialogsystem 
bedient werden, 35 

— eine oder mehrere Schnittstellen zu Fahrzeug- 
komponenten oder Fahrzeugrechnern bestehen, 
woruber permanente oder aktuelle Fahrzeugdaten 
dem Sprachdialogsystem mitgeteilt werden, wie 

z. B. Geschwindigkeit, 40 

— das Sprachdialogsystem wahrend der Wartezeit 
(wo keine Sprachein- oder -ausgabe erfolgt) andere 
Funktionen z. B. des Radios, des Telefons o.a. uber- 
nimmt, 

— durch erweiterten Speicher ein multilinguales 45 
sprecherunabhangiges Dialogsystem aufgebaut 
wird, wobei kurzfristig zwischen den Dialogsyste- 
men verschiedener Sprachen umgeschaltet werden 
kann, 

— ein optisches Display mit dem Sprachdialogs- 50 
ystem uber ein spezielles Interface bzw. uber den 
BusanschluB gekoppelt ist, wobei dieser Bus vor- 
zugsweise ein optischer Datenbus ist und hieriiber 
sowohl Steuer- wie Audiosignale ubertragen wer- 
den > 55 

— das vollstandige Sprachdialogsystem uber eine 
PCMCIA-Schnittstelle mit der per Sprache zu steu- 
ernden Vorrichtung bzw. einem Host- oder Appli- 
kationsrechner gekoppelt wird. 

60 

Es versteht sich, daB die Erfindung nicht auf die dar- 
gestellten Ausfuhrungs- und Anwendungsbeispiele be- 
schr^nkt ist, sondern vielmehr sinngemaB auf weitere 
ubertragbar ist. So ist es z. B. denkbar, ein solches 
Sprachdialogsystem zur Bedienung eines elektrischen 65 
Worterbuches oder eines elektronischen Diktier- bzw. 
Obersetzungssystems zu verwenden. 

Eine weitere Ausgestaltung der Erfindung besteht 



Bezugszeichenliste 

SBS Sprachbediensystem 

PTTPush-to-Talk 

HMM Hidden Markov Modelle 

DTW Dynamic Time Warping 

CMF Mittelwert befreite Cepstralvektoren 

DCT Digitale Cosinus Transformation 

FFT Fast Fourier Transformation 

LDA Lineare Diskriminanzanalyse 

PCM Pulse Code Modulation 

VQ Vektorquantisierung 

SDS Sprachdialogsystem 

Patentanspriiche 

1. Verfahren zur automatischen Steuerung eines 
oder mehrerer Gerate durch Sprachkommandos 
oder per Sprachdialog im Echtzeitbetrieb, bei wel- 
chem Verfahren die eingegebenen Sprachkom- 
mandos mittels eines sprecherunabhangigen Ver- 
bundwort-Spracherkenners und eines sprecherab- 
hangigen Zusatz-Spracherkenners erkannt und ge- 
maB ihrer Erkennungswahrscheinlichkeit klassifi- 
ziert werden und dasjenige zu lassige Sprachkom- 
mando mit der groBten Erkennungswahrscheinlich- 
keit als das eingegebene Sprachkommando identifi- 
ziert und die diesem Sprachkommando zugeordne- 
ten Funktionen des oder der Gerate initiiert wer- 
den, gekemizeichnet durch folgende Merkmale: 

• die Sprachkommandos (der Sprachdialog) wer- 
den (wird) auf der Basis von mindestens einer Syn- 
taxstruktur, mindestens einem Basiskommandovo- 
kabular und bei Bedarf mindestens einem sprecher- 
spezifischen Zusatzkommandovokabular gebildet 
(gefuhrt); 

• die Syntaxstruktur(en) und das (die) Basiskom- 
mandovokabular(ien) werden in sprecherunabhan- 
giger Form vorgegeben und sind wahrend des 
Echtzeithetriebs fixiert; 

• das (die) sprecherspezifische (n) Zusatzkomman- 
dovokabular (ien) wird (werden) vom Q'eweiiigen) 
Sprecher eingegeben und/oder geandert, indem in 
Trainingsphasen in- und/oder auBerhalb des Echt- 
zeitbetriebs ein nach einem sprecherabhangigen 
Erkennungsverfahren arbeitender Zusatz-Sprach- 
erkenner vom (jeweiligen) Sprecher durch ein- 
oder mehrmalige Eingabe der Zusatzkommandos 
auf die sprachspezifischen Merkmale des (jeweili- 
gen) Sprechers trainiert wird; 

im Echtzeitbetrieb erfolgt die Abwicklung des 
Sprachdialogs und/oder die Steuerung des Gerats 
(der Gerate) wie folgt: 

— vom (jeweiligen) Sprecher eingegebene 
Sprachkommandos werden einem sprecherun- 
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abhangigen und auf der 85Hs von Phonemen 
arbeitenden Verbundwortspracherkenner und 
dem sprecherabhangigen Zusatz-Spracher- 
kenner zugeleitet und dort (jeweils) einer 
Merkmalsextraktion unterzogen und 5 

— im Verbundwortspracherkenner anhand 
der dort extrahierten Merkmale auf das Vor- 
liegen von Basiskommandos aus dem (jeweili- 
gen) Basiskommandovokabular gemaB der (je- 
weils) vorgegebenen Syntaxstruktur unter- 10 
sucht und klassifiziert und 

— im sprecherabhangigen Zusatz-Spracher- 
kenner anhand der dort extrahierten Merkma- 
le auf das Vorliegen von Zusatzkommandos 
aus dem (jeweiligen) Zusatzkommandovoka- 15 
bular untersucht und klassifiziert; 

— anschlieBend werden die als mit einer be- 
stimmten Wahrscheinlichkeit erkannt klassifi- 
zierten Kommandos und Syntaxstrukturen der 
beiden Spracherkenner zu hypothetischen 20 
Sprachkommandos zusarnmengeftigt und die- 

se gemaB der vorgegebenen Syntaxstruktur 
auf ihre Zulassigkeit und Erkennungswahr- 
scheinlichkeit untersucht und klassifiziert; 

— anschlieBend werden die zulassigen hypo- 25 
thetischen Sprachkommandos nach vorgege- 
benen Kriterien auf ihre Plausibilitat unter- 
sucht und von den als piausibel erkannten hy- 
pothetischen Sprachkommandos dasjenige mit 
der hochsten Erkennungswahrscheinlichkeit 30 
ausgewahlt und als das vom (jeweiligen) Spre- 
cher eingegebene Sprachkommando identifi- 
ziert; 

— anschlieBend wird (werden) die dem identi- 
fizierten Sprachkommando zugeordnete(n) 35 

— Funktion(en) des (jeweils) zu steuern- 
den Gerats initiiert und/oder 

— Antwort(en) gemaB einer vorgegebe- 
nen Sprachdialogstruktur zur Fortfuh- 
rung des Sprachdialogs generiert 40 

2. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB die Eingabe von Sprachkommandos 
manuell und/oder akustisch erfolgt. 

3. Verfahren nach Anspruch 2, dadurch gekenn- 
zeichnet, daB die Eingabe von Sprachkommandos 45 
im Freisprechbetrieb erfolgt 

4. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB akustisch 
eingegebene Sprachkommandos gerauschredu- 
ziert den beiden Spracherkennern zugeleitet wer- 50 
den, indem durch stationare und/oder quasistatio- 
nare Umgebungsgerausche verursachte Gerausch- 
signale im Sprachsignal-Empfangskanal vor den 
beiden Spracherkennern kompensiert werden. 

5. Verfahren nach einem der vorhergehenden An- 55 
spruche, dadurch gekennzeichnet, daB akustisch 
eingegebene Sprachkommandos echokompensiert 
den beiden Spracherkennern zugeleitet werden, in- 
dem in den Sprachsignal-Empfangskanal ruckge- 
koppeite Signale einer Sprachausgabeeinheit im 60 
Sprachsignal-Empfangskanal vor den beiden 
Spracherkennern kompensiert werden. 

6. Verfahren nach einem der Anspruche 4 oder 5, 
dadurch gekennzeichnet, daB die Kompensation 
mittels adaptiver digitaler Filterverfahren erfolgt 65 

7. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB die eingege- 
benen Sprachkommandos nach Digitalisierung 



blockweise zusammengefaBt und nach einer Ge- 
wichtung mittels einer Spektraltransformation in 
den Frequenzbereich umgesetzt werden und an- 
schlieBend durch Betragsbildung und nachfolgen- 
der gehorbezogener MEL-Filterung zu Kanalvek- 
toren zusammengefaBt werden und daB daran an- 
schlieBend eine Segmentierung durchgefiihrt wird. 

8. Verfahren nach Anspruch 7, dadurch gekenn- 
zeichnet, daB als Spektraltransformation eine Fast- 
Fourier-Transformation (FFT) eingesetzt wird. 

9. Verfahren nach einem der Anspruche 7 oder 8, 
dadurch gekennzeichnet, daB die Segmentierung in 
eine Grob- und eine Feinsegmentierung unterteilt 
ist 

10. Verfahren nach einem der Anspruche 7 bis 9, 
dadurch gekennzeichnet, daB im sprecherunabhan- 
gigen Verbundwortspracherkenner die Merkmal- 
sextraktion dergestalt durchgefuhrt wird, 

• daB die Kanalvektoren mit einer diskreten Cosi- 
nustransformation (DCT) in Cepstralvektoren 
transformiert werden, 

• daB zusatzlich die Energie des zugehorigen Si- 
gnals berechnet und normiert wird, 

• daB zur Adaption des Erkenners auf den jeweili- 
gen Sprecher und/oder die jeweiligen Obertra- 
gungscharakteristiken des Sprachsignal-Empfangs- 
kanals fortlaufend der Mittelwert der Cepstralvek- 
toren berechnet und von den Cepstralvektoren ab- 
gezogen wird, 

• daB die vom Mittelwert der Cepstralvektoren 
befreite Cepstralvektoren und die berechnete nor- 
mierte Signalenergie zu mittelwertfreien Cepstral- 
koeffizienten (CMF-Vektoren) zusammengefaBt 
werden. 

1 1. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB der spre- 
cherunabhangige Verbundworterkenner bei der 
Klassifizierung mit einem phonembasierten Hid- 
den-Markov-Modell (HMM) arbeitet 

12. Verfahren nach Anspruch 1 1, dadurch gekenn- 
zeichnet, daB die Klassifikation mit Hilfe eines Vi- 
terbialgorithmus durchgefuhrt wird. 

13. Verfahren nach Anspruch 12, dadurch gekenn- 
zeichnet, daB der Viterbialgorithmus durch eine 
vorgegebene Wortfolgestatistik erganzt wird. 

14. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB bei der Klas- 
sifikation zusatzlich auch Fiillworter oder -laute 
oder sonstige im vorgegebenen Basisvokabular 
nicht enthaltene Fehlkommandos als solche er- 
kannt und entsprechend klassifiziert und ausgeson- 
dert werden. 

15. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB der spre- 
cherunabhangige Verbundwort-Spracherkenner 
und der Zusatz-Spracherkenner auf derselben Si- 
gnaivorverarbeitung fur die eingegebenen Sprach- 
kommandos aufsetzen. 

16. Verfahren nach Anspruch 15, dadurch gekenn- 
zeichnet, daB die Signalvorverarbeitung Verfahren 
zur Gerauschreduktion, Echokornpensation und 
Segmentierung umfaBt 

17. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB der Zusatz- 
spracherkenner als Einzelwortspracherkenner ar- 
beitet 

18. Verfahren nach Anspruch 17, dadurch gekenn- 
zeichnet, daB der Zusatzspracherkenner als Einzel- 
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wortspracherkenner nacn dem Verfahren der dy- 
namischen Zeitnormierung arbeitet 

19. Verfahren nach Anspruch 17, dadurch gekenn- 
zeichnet, daB der sprecherunabhangige Verbund- 
wort-Spracherkenner und der sprecherabhangige 5 
Einzelwort-Spracherkenner kombiniert im Ver- 
bundwortmodus arbeiten. 

20. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB wahrend des 
Echtzeitbetriebs eine fortlaufende Anpassung des to 
Sprachsignal-Empfangskanals an die analoge 
Obertragungscharakteristik, insbesondere Rauma- 
kustik- und/oder Mikrofon- und/oder Verstarker- 
und/oder Sprechercharakteristik, erfolgt 

21. Verfahren nach einem der Anspriiche 1 bis 20, 15 
dadurch gekennzeichnet, daB die vorgegebenen 
Basiskommandos in sprachcodierter Form vorge- 
geben und abgespeichert werden und/oder die vom 
(jeweiligen) Sprecher in Trainingsphasen eingege- 
benen Zusatzkommandos und/oder im Echtzeitbe- 20 
trieb eingegebenen Sprachkommandos nach ihrer 
Eingabe sprachcodiert weiterverarbeitet und/oder 
abgespeichert werden und daB akustisch auszuge- 
bende Sprachkommandos vor ihrer Ausgabe 
sprachdecodiert werden. 25 

22. Verfahren nach einem der Anspriiche 1 bis 20, 
dadurch gekennzeichnet, daB die vorgegebenen 
Basiskommandos und/oder die Zusatzkommandos 
und/oder die im Echtzeitbetrieb eingegebenen 
Sprachkommandos in Form von Text abgespei- 30 
chert werden und daB akustisch auszugebende 
Sprachkommandos vor ihrer Ausgabe einer Text- 
zu-Sprache-Synthese unterzogen werden. 

23. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB die Syntax- 35 
struktur und die Basiskommandos und/oder die Zu- 
satzkommandos vorab im "offline Dialog Editier- 
modus" im Labor erstellt und fixiert werden und 
dem Verbundwort-Spracherkenner in Form von 
Datenfiles iibergeben werden. 40 

24. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB 

• die Wortstellung in den Sprachkommandos 
durch Vertauschen einzelner Worte eines Kom- 
mandos veranderbar ist und/oder 45 

# vorgegebene synonyme Worte bei der Bildung 
von Sprachkommandos nutzbar sind und/oder 

• die gleiche Funktion durch Sprachkommandos 
unterschiedlicher Wortanzahi realisiert werden 
kann. 50 

25. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB zur Erken- 

gungen oder anderer nicht zum Vokabular gehori- 
ger Kommandos dem zulassigen Vokabular weite- 55 
re Worter bzw. Lauteinheiten hinzugefiigt werden 
bzw. Wordspottingansatze genutzt werden. 

26. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB die Dialog- 
struktur folgende Eigenschaften aufweist: eo 

# flache Hierarchie mit nur einigen wenigen Hier- 
archieebenen, vorzugsweise einer oder zweier 
Hierarchieebenen, 

Einbindung von Ellipsen, bei der Abwicklung des 
Sprachdialogs, 65 

Einbeziehung von Hilfe- oder Info-Menus, 
Einbeziehung von Riickfragen des Sprachdia- 
logsystems bei unsicheren Entscheidungen des Er- 
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kenners, 

• Einbeziehung von Sprachausgaben, um durch 
Anregung bestimmter Sprechweisen die Erkennsi- 
cherheit zu steigern. 

27. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB die Sprach- 
erkennung durch Betatigung einer Push-to-talk- 
Taste (PTT) aktiviert wird oder daB die Spracher- 
kennung durch Betatigung einer Pushto-talk-Taste 
(PTT) aktiviert und dies akustisch und/oder optisch 
quittiert wird. 

28. Verfahren nach Anspruch 27, dadurch gekenn- 
zeichnet, daB der anschlieBende Sprachdialog bzw. 
die anschlieBende Eingabe von Sprachkommandos 
ohne Betatigung der Push-totalk-Taste abgewik- 
kelt wird. 

29. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB das Sprach- 
dialogsystem eines oder mehrere der folgenden 
Leistungsmerkmale aufweist: 

• die spezifischen (z. B. trainierten) Sprachkom- 
mandos unterschiedlicher Sprecher werden bei Be- 
darf fur spatere Wiederbenutzung festgehalten, 

• vom Sprecher trainierte Sprachkommandos 
bzw. Namen werden wahrend der Trainingsphase 
nicht nur der Erkennung zugefuhrt, sondern auch in 
ihrem zeitlichen Verlauf aufgenommen, einer Da- 
tenkompression ("Sprachkodierung") zugefuhrt 
und nichtfluchtig gespeichert, 

• die vom Sprecher trainierten Sprachkomman- 
dos werden wahrend der Trainingsphase derart 
verarbeitet, daB Umgebungsgerausche wahrend 
der Aufnahme weitestgehend kompensiert werden. 

30. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB der Ab- 
schluB eines Erkennvorganges akustisch durch ei- 
nen Kontrollton quittiert wird. 

31. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB bei sicher- 
heits- bzw. zeit- oder kostenreievanten Entschei- 
dungen das Erkennungsergebnis akustisch wieder- 
holt wird (Sprachausgabe) und der Sprecher die 
Moglichkeit hat, durch ein verbales Kommando 
oder durch Betatigen der Push-to-talk-Taste die 
Ausfiihrung der dem Sprachkommando zugeord- 
neten Funktion zu unterbinden oder riickgangig zu 
machen. 

32. Verfahren nach einem der vorhergehenden An- 
spriiche dadurch gekennzeichnet, daB das Sprach- 
bediensystem mit einem optischen Anzeigemedium 
(LCD Display, Monitor, Display eines angesteuer- 
ten Gerats o. a.) gekoppelt ist. 

zeichnet, daB das optische Anzeigenmedium einzel- 
ne oder mehrere der folgenden FunktioneH uber- 
nimmt: 

• Ausgabe der erkannten Sprachkommandos zu 
Kontrollzwecken, 

• Darstellung der vom Zielgerat als Reaktion auf 
das Sprachkommando eingestellten Funktionen, 

• Darstellung verschiedener Funktionen/Alterna- 
tiven, die per Sprachkommando anschlieBend ein- 
gestellt bzw. ausgewahlt oder modifiziert werden. 
34. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB jeder Spre- 
cher eigene Namens- oder Abkurzungslisten ein- 
richten kann mit einem oder mehreren der folgen- 
den Merkmale: 
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der vom Sprecher beim sprecHSrabhangigen Er- 
kenner trainierte Namen reprasentiert eine Zif- 
fernkette, Buchstabenkette und/oder ein Komman- 
do bzw. eine Kommandosequenz, die im sprecher- 
unabhangigen Betriebsmode eingegeben wurde, 5 

anstelle der erneuten Eingabe der Ziffernkette, 
Buchstabenkette oder Kommandosequenz kann 
der Benutzer die Listenbezeichnung und den von 
ihm gewahlten Namen eingeben, oder neben dem 
Namen ein geeignetes Kommando eingeben, wei- 10 
ches auf die richtige Liste schlieBen laBt, 

• die Liste kann sprachgesteuert jederzeit urn wei- 
tere Eintrage erweitert werden, 

• die Liste kann sprachgesteuert komplett oder 
selektiv geloscht werden, 15 

• die Liste kann auf einen Sprachbefehl hin abge- 
hort werden, wobei die vom Benutzer eingegebe- 
nen Namen und bei Bedarf die zugehorigen Zif- 
fernkette, Buchstabenkette bzw. Kommandos aku- 
stisch ausgegeben werden, 20 

• die akustische Ausgabe der Liste kann zu jedem 
beliebigen Zeitpunkt abgebrochen werden. 

35. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB eine Folge 
von Ziffern (Ziffernkolonne) entweder an einem 25 
Stuck (zusammenhangend) oder blockweise einge- 
sprochen werden kann, wobei 

• nach jeder Eingabepause eine Quittierung er- 
folgt, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 30 

• nach der Quittierung durch ein Sprachkomman- 
do "Fehler" o. a. der letzte Eingabeblock geloscht 
wird und die verbleibenden, gespeicherten Blocke 
akustisch ausgegeben werden, 

• nach der Quittierung durch ein Sprachkomrnan- 35 
do "Ldschen" o. a. alle eingegebenen Ziffernblocke 
geloscht werden konnen, 

• nach der Quittierung durch ein Sprachkomman- 
do "wiederholen" o. a. die bisher gespeicherten 
Blocke akustisch ausgegeben werden konnen, 40 

• nach der Quittierung durch ein Sprachkomman- 
do "Abbruch" o. a. die Eingabe der Ziffernkolonne 
vollstandig abgebrochen werden kann, 

• nach der Quittierung weitere Ziffern bzw. Zif- 
fernblocke eingegeben werden .konnen, 45 

• nach der Quittierung die Zifferneingabe durch 
ein geeignetes Sprachkommando "Stop" o. a. abge- 
schlossen wird, 

• durch Eingabe eines eine Aktion/Funktion star- 
tenden Sprachkommandos wie "wahlen" o. a. die 50 
Eingabe abgeschlossen wird und die dem Sprach- 
kommando zugeordnete Aktion/ Funktion initiiert 
wird. 

36. Verfahren nach Anspruch 35, dadurch gekenn- 
zeichnet, daB bei der auf das Sprachkommando 55 
"Fehler" o. a. bzw. auf das Sprachkommando "wie- 
derholen" o. a. folgenden Ausgabe der bisher einge- 
sprochenen Ziffern dieselbe Blockung benutzt wird 
wie bei der Eingabe. 

37. Verfahren nach einem der vorhergehenden An- 60 
spriiche, dadurch gekennzeichnet, daB eine Folge 
von Buchstaben (Buchstabenkolonne) eingespro- 
chen wird, welche zur Auswahl komplexer Funktio- 
nen bzw. zur Eingabe einer Vielzahl von Informa- 
tionen vorgesehen wird, wobei die Buchstabenko- 65 
lonne zusammenhangend oder blockweise einge- 
geben wird und 

• nach jeder Eingabepause eine Quittierung er- 
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folgt, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 

nach der Quittierung durch ein Sprachkomman- 
do "Fehler", o. a. der letzte Eingabeblock geloscht 
wird und die verbleibenden, gespeicherten Blocke 
akustisch ausgegeben werden, 

nach der Quittierung durch ein Sprachkomman- 
do "Loschen" o. a. alle eingegebenen Buchstaben 
geloscht werden konnen, und im AnschluB daran 
eine erneute Eingabe erfolgt, 

• nach der Quittierung durch ein Sprachkomman- 
do "wiederholen" o.a. die bisher gespeicherten 
Blocke akustisch ausgegeben werden konnen, 

• nach der Quittierung weitere Buchstaben bzw. 
Buchstabenblocke eingegeben werden konnen, 

• gegebenenfalls ein Abgleich der Buchstabenko- 
lonne oder der einzelnen Buchstabenbiocks mit ei- 
ner gespeicherten Wortliste erfolgt und daraus das 
(die) bestpassende(n) Wort (Worter) extrahiert 
wird (werden) 

• nach der Quittierung durch ein Sprachkomman- 
do "Abbruch" o. a. die Eingabe der Buchstabenko- 
lonne vollstandig abgebrochen werden kann, 

• nach der Quittierung die Buchstabeneingabe 
durch ein Sprachkommando "Stop" o. a. abge- 
schlossen wird, 

• durch Eingabe eines eine Aktion/Funktion star- 
tenden Sprachkommandos wie "wahlen" o. a. die 
Eingabe abgeschlossen wird und die dem Sprach- 
kommando zugeordnete Aktion/ Funktion initiiert 
wird. 

38. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB die Ausga- 
belautstarke der Sprachausgabe und des Kontroll- 
tons den Umgebungsgerauschen angepaBt sind, 
wobei die Umgebungsgerausche wahrend der 
Sprachpausen bezuglich ihrer Starke und Charak- 
teristik erfaBt werden. 

39. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB der Zugang 
zum Sprachdialogsystem bzw. der Zugriff auf be- 
nutzerspezifische Daten-Kommandos nur durch 
Eingabe spezieller Kommandoworte bzw. durch 
Eingabe spezieller Kommandoworte eines autori- 
sierten Sprechers erfolgt, dessen Sprachcharakteri- 
stika dem Sprachdialogsystem bekannt sind und 
von diesem gepruft werden. 

40. Verfahren nach einem der vorhergehenden An- 
spruche, dadurch gekennzeichnet, daB langer an- 
dauernde Sprachausgaben (z. B. Info-Menus) durch 
gesprochene oder manuelle Abbruchkommandos 
vorzeitig beendet werden konnen. 

41. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB das Sprach- 
dialogsystem in einer der folgenden Formen die 
manuelle Bedienung obiger Funktionen (z. B. per 
Schalter, Taste, Drehknopf) erganzt oder ersetzt 

• Die Sprachkommandierung existiert neben der 
manuellen Bedienung, so daB die Bedienung jeder- 
zeit manuell erfoigen bzw. weitergefuhrt werden 
kann; 

einige spezielle Leistungsmerkmale sind nur per 
Spracheingabe aktivierbar, die anderen Gerate- 
und Bedienfunktionen bleiben sowohl manuell wie 
per Sprache kommandierbar; 

die Anzahl der manuellen Bedienelemente wird 
deutlich reduziert, einzelne Tasten bzw. Drehknop- 
fe ubernehmen MehrfachfunktiorL Per Sprache 
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wird manuellen BedWWfementen eine spezielle 
Funktion zugewiesen. Nur wesentliche Bedien- 
funktionen sind noch manuell ansteuerbar. Die Ba- 
sis ist die Sprachkommandierung. 

42. Verfahren nach einem der vorhergehenden An- 5 
spruche, dadurch gekennzeichnet, daB mit einem 
einzigen Einzelwort-Mehrwortkommando eine 
Vielzahl unterschiedliche GerSte sowie Gerate- 
funktionen ansprech- und modifizierbar sind und 
somit eine mehrstufige Vorgehensweise nicht oder 10 
nur in einem geringen Umfang erforderlich ist 

43. Verfahren nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB das Sprach- 
dialogsystem in Fahrzeugen fur einzelne oder meh- 
rere der im folgenden genannten Funktionen zur 15 
Anwendung kommt: 

• Bedienung einzelner oder mehrerer Gerate, wie 
z. B. Autotelefon, Autoradio (ggf. mit Kassette, CD- 
Wechsler, Soundsystem), Navigationssystem, Kli- 
maanlage, Heizung, Reiserechner, Beleuchtung, 20 
Schiebedach, Fensterheber Sitzversteller etc. 

• Informationsabfrage von Parametern, wie Ol- 
druck, -temperatur, Wassertemperatur, Verbrauch, 
Reifendruck etc. 

• Information iiber notwendige MaBnahmen, z. B. 25 
bei hoher Wassertemperatur, geringem Reifen- 
druck etc. 

• Warnung des Fahrers bei Defekten. 

44. Verfahren nach Anspruch 39, dadurch gekenn- 
zeichnet, daB die sprachgesteuerte Auswahl eines 30 
neuen Senders im Autoradio nach einem der fol- 
genden Ablauf e erfolgt: 

• Kommandierung des Suchlaufs auf- oder ab- 
warts, 

• Spracheingabe der Senderfrequenz, 35 

• Spracheingabe des gebrauchlichen Senderna- 
mens. 

45. Verfahren nach Anspruch 43, dadurch gekenn- 
zeichnet, daB bei der KJimaanlage die gewunschte 
Temperatur per Spracheingabe relativ oder abso- 40 
lut festgelegt werden kann und zusiitzlich eine mi- 
nimale und/oder maximale und/oder mittlere Tem- 
peratur und/oder Normaltemperatur kommandiert 
werden kann. 

46. Verfahren nach Anspruch 43, dadurch gekenn- 45 
zeichnet, daB dem Navigationssystem ein Zielort 
(Ortsname, StraBenname) durch Eingabe von 
Buchstabenkolonnen im "Buchstabiermode" mitge- 
teilt wird, wobei auch der Anfang des Namens als 
Eingabe genugt und das Navigationssystem gege- 50 
benenfalls mehrere Kandidaten zur Auswahl anbie- 
tet. 

47. Verfahren nach einem der Anspruche 43 bis 46, 
dadurch gekennzeichnet, daB eine oder mehrere 
der folgenden benutzerspezifischen Namenslisten 55 
eingerichtet werden: 

• Liste zur Speicherung von Telefonnummern un- 
ter vorgebbaren Namen/Abkiirzungen, 

• Liste zur Speicherung von Zielen fur das Navi- 
gationssystem unter vorgebbaren Namen/Abkur- 60 
zungen, 

• Liste zur Speicherung von Funktionsnamen fur 
Kommandos oder Kommandofolgen, 

Liste zur Speicherung von Senderfrequenzen 
des Autoradios unter vorgebbaren Sendernamen 65 
bzw. Abkiirzungen. 

48. Verfahren nach einem der Anspruche 43 bis 47, 
dadurch gekennzeichnet, daB die Ausgabelautstar- 
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ke der S^^mausgabe und des Kontrolltons oder 
der Kontrolltone, ggf. auch die Radiolautstarke und 
die Geblaseeinstellung, unter Berucksichtigung ei- 
nes oder mehrerer der folgenden Parameter festge- 
legt werden: 

Fahrzeuggeschwindigkeit 

Drehzahi 

Offnungsbreite der Fenster und des Schiebe- 
daches 

• Fahrzeugtyp, 

• Wichtigkeit der Sprachausgabe in der jeweiligen 
Dialogsituation. 

49. Verfahren nach Anspruch 28, dadurch gekenn- 
zeichnet, daB die Push-to-talk-Taste 

• entweder Mehrfachfunktionen wahrnimmt oder 
beinhaltet, z. B. wahrend des Teiefonierens ("Aufle- 
gen des Horers" "Abheben des Horers") bzw. beim 
Neustart des Sprachdialogsystems bzw. beim Ab- 
bruch eines Telefonwahlvorganges, 

• oder erganzt wird durch zusatzliche Schalter, 
welche z. B. einen Neustart oder den Abbruch einer 
Funktion erlauben. 

50. Vorrichtung zum Ausfuhren des Verfahrens 
nach einem der vorhergehenden Anspruche, bei 
welcher eine Spracheingabe-Aausgabeeinheit uber 
eine Sprachsignalvorverarbeitungseinheit mit einer 
Spracherkennungseinheit verbunden ist, die wie- 
derum mit einer Ablauf-, Dialog- und Schnittstel- 
lensteuerung verbunden ist, dadurch gekennzeich- 
net dafl die Spracherkennungseinheit aus einem 
sprecherunabhangigen Verbundworterkenner und 
einem sprecherabhangigen Zusatz-Spracherken- 
ner besteht, die beide ausgangsseitig mit einer Ein- 
heit zur syntaktisch-grammatikalischen und/oder 
semantischen Nachverarbeitung verbunden sind, 
die mit der Ablauf-, Dialog- und Schnittstellen- 
steuerung verbunden ist. 

51. Vorrichtung nach Anspruch 50, dadurch ge- 
kennzeichnet, daB die Sprachsignalvorverarbei- 
tungseinheit eine Vorrichtung zur Gerauschreduk- 
tion und/oder eine Vorrichtung zur Echokompen- 
sation und/oder eine Vorrichtung zur Segmentie- 
rung enthalt 

52. Vorrichtung nach einem der Anspruche 50 oder 

51, dadurch gekennzeichnet, daB die Spracheinga- 
be-Aausgabeeinheit einen Sprachencoder, einen 
Sprachdecoder sowie einen Sprachspeicher ent- 
halt 

53. Vorrichtung nach einem der Anspruche 50 bis 

52, dadurch gekennzeichnet, daB die Ablauf-, Dia- 
log- und Schnittstellensteuerung, die Sprachein- 
Aausgabe sowie die Sprachsignalvorverarbeitung, 
Spracherkennung, syntaktischgrammatikalische 
und semantische Nachverarbeitung mittels mehre- 
rer Mikro- und Signalprozessoren, Speichern und 
Schnittstellenbausteine erfolgt, oder mittels eines 
einzigen digitalen Signal- oder Mikroprozessors 
sowie des erforderlichen externen Daten- und Pro- 
grammspeichers, der Interfaces sowie der zugeho- 
rigen Treiberbausteine, eines Taktgenerators, einer 
Steuerlogik und der fur Sprachein-Aausgabe erfor- 
derlichen Mikrofone und Lautsprecher samt zuge- 
horiger Wandler und VerstaYker sowie gegebenen- 
falls einer Push-to-talk(PTT)- Taste und/oder einer 
Abbruchtaste. 

54. Vorrichtung nach Anspruch 53, dadurch ge- 
kennzeichnet, daB uber ein Interface 

• Daten und/oder Parameter ladbar bzw. nachlad- 
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bar sind, urn z. B. VerfahrensancTerungen oder ein 
Sprachdialogsystem fur eine andere Sprache zu 
realisieren, 

die auf einem separaten Rechner festgelegte 
oder modifizierte Syntaxstruktur, Dialogstruktur, 5 
Ablaufsteuerung, Sprachausgabe etc. auf das 
Sprachdialogsystem iibertragen werden ("off-linie 
Dialog- Editor"). 

55. Vorrichtung nach Anspruch 53, dadurch ge- 
kennzeichnet, daB diese mit mehreren der anzu- 10 
steuernden Gerate iiber ein Bussystem und/oder 
ein ringformiges Netzwerk verkniipft ist und da8 
Qber diesen Bus bzw. das Netzwerk Steuerdaten 
und/oder Audiosignale und/oder Statusmeldungen 
des KJz und/oder der zu bedienenden Gerate iiber- 15 
tragen werden. 

56. Vorrichtung nach einem der Anspriiche 50 bis 
55 fiir die.Anwendung in Fahrzeugen, dadurch ge- 
kennzeichnet, daB die einzelnen anzusteuernden 
Gerate nicht jeweils ein eigenes Sprachdialogs- 20 
ystem enthalten, sondern von einem einzigen 
Sprachdialogsystem bedient werden. 

.57. Vorrichtung nach Anspruch 56, dadurch ge- 
kennzeichnet, daB eine oder mehrere Schnittstellen 
zu Fahrzeugkomponenten oder Fahrzeugrechnern 25 
bestehen, woniber permanente oder aktuelle Fahr- 
zeugdaten dem Sprachdialogsystem mitgeteilt wer- 
den. 

58. Vorrichtung nach einem der Anspriiche 55 oder 
56, dadurch gekennzeichnet, daB diese Vorrichtung 30 
wahrend der Wartezeiten, in denen keine Sprach- 
ein- oder -ausgabe erfolgt, andere Funktionen 
ubernimmt. 

59. Vorrichtung nach einem der Anspriiche 50 bis 

58, dadurch gekennzeichnet, daB durch erweiterten 35 
Speicher ein multilinguales sprecherunabhangiges 
Dialogsystem aufgebaut wird, wobei kurzfristig 
zwischen den Dialogsystemen verschiedener Spra- 
chen umgeschaltet werden kann. 

60. Vorrichtung nach einem der Anspriiche 50 bis 40 

59, dadurch gekennzeichnet, daB ein optisches Dis- 
play mit dem Sprachdialogsystem iiber ein speziel- 
les Interface oder iiber den BusanschluB gekoppelt 
ist 

61. Vorrichtung nach Anspruch 60, dadurch ge- 45 
kennzeichnet, daB dieser Bus ein optischer Daten- 
bus ist und hieriiber sowohl Steuer- wie Audiosi- 
gnale bzw. Statusmeldungen des Kfz und der zu 
bedienenden Gerate iibertragen werden. 

62. Vorrichtung nach einem der Anspriiche 50 bis 50 
61, dadurch gekennzeichnet, daB das vollstandige 
Sprachdialogsystem iiber eine PCMCIA-Schnitt- 
stelle mit dem per Sprache zu steuernden Gerat 
und/oder einem Host- oder Applikationsrechner 
gekoppelt wird. 55 
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